Engineer Tokopedia Berbagi Cerita Menangani dan Mengelola Insiden

High Severity! Behind Tokopedia’s Reliable Incident Management
Image title
Oleh Tim Publikasi Katadata - Tim Publikasi Katadata
30 Desember 2020, 11:07
Tokopedia
Katadata

Sebagai sebuah platform dengan total pengguna aktif sebanyak lebih dari 100 juta setiap bulan serta ekosistem yang membantu lebih dari 9,9 juta penjual untuk mewujudkan mimpi mereka, Tokopedia perlu menanamkan budaya yang dapat diimplementasikan pada setiap divisi dan tim di dalamnya agar selalu memberikan pengalaman dan pelayanan yang terbaik.

Melalui acara START Summit Extension yang diadakan pada 17 Desember 2020 lalu, para tim Engineer Tokopedia kembali hadir untuk membagikan praktik terbaik mereka dalam membangun dan meningkatkan budaya kewaspadaan terhadap sistem platform Tokopedia.

Dengan tema “High Severity! Behind Tokopedia’s Reliable Incident Management”, START Summit Extension Desember terbagi ke dalam beberapa sesi. Sebagai pembuka, Software Engineer Lead – Purchase Platform Tokopedia Timothy Agustian memberikan penjelasan tentang bagaimana budaya kerja yang diterapkan oleh setiap karyawan dapat membentuk keseharian tim Engineer.

Menurut Timothy, sebagai perusahaan yang dipercaya oleh jutaan penjual dan pembeli, seluruh tim teknologi Tokopedia memiliki tanggung jawab yang besar untuk mengelola setiap insiden yang terjadi.

Oleh karena itu, Tokopedia memiliki beberapa tahapan dalam mengelola insiden. Tahapan yang pertama adalah Preparation & Monitoring, di mana tahap ini merupakan fase pertama untuk mempersiapkan sistem ketika insiden belum terjadi. Fase ini adalah fase awal yang akan mempengaruhi fase-fase berikutnya. Timothy menjelaskan bahwa fase ini terbagi ke dalam beberapa poin penting, yakni:

Trained Team Member

Hal utama yang perlu disiapkan adalah melatih anggota tim. Bagi setiap developer, mereka harus memiliki pengetahuan dasar tentang use case yang perlu ditangani, serta infrastruktur dan bagaimana alur dari setiap bisnis secara umum untuk membantu mereka dalam mengidentifikasi masalah apa yang nantinya dapat terjadi, dan bagaimana mereka dapat menangani masalah tersebut.

One-Stop for All Team Documentation

Sebagai seorang developer yang sudah berpengalaman dan terbiasa menangani insiden, mengumpulkan dan membuat dokumentasi merupakan hal yang sangat penting sehingga segala informasi yang berkaitan dengan insiden manajemen dapat dengan mudah diakses oleh tim-tim member lainnya untuk dapat dijadikan acuan.

Good Monitoring Platform

Poin ini juga tak kalah penting, di mana tahap ini berguna untuk membantu kita mengetahui keadaan server atau bisnis secara real time, sehingga kita dapat memantau secara berkala dan mempersiapkan berbagai kemungkinan yang dapat terjadi.

Timothy melanjutkan tentang tahap kedua dalam proses mengelola insiden Tokopedia, yakni Alerting. Saat alarm sudah berbunyi, maka ini merupakan tanda bahwa terdapat suatu insiden. Insiden yang baik adalah jika alertingnya juga baik, sehingga kita dapat langsung mengetahui saat insiden terjadi dan tidak mengetahuinya dari pihak eksternal atau pengguna, melainkan dapat mengetahuinya terlebih dulu.

Dalam fase Alerting, poin yang juga tak kalah penting adalah Basic Knowledge Alarm, dimana setiap anggota tim perlu memiliki pengetahuan dasar untuk dapat mendefinisikan suatu alarm serta menentukan langkah apa yang harus segera dilakukan.

Setelah Basic Knowledge Alarm, Incident Management Platform juga dijelaskan sebagai poin yang perlu diperhatikan. Ketika terjadi insiden, kita perlu membuat jalur komunikasi yang baik untuk dapat langsung menghubungi pihak-pihak yang berkaitan dengan insiden tersebut.

Tahapan ketiga setelah Alerting adalah Triage & Notify yang dijelaskan oleh Danish Jatmiko, Engineering Manager – Order & Campaign Tokopedia.. Tahapan ini menjelaskan tentang apa yang perlu dilakukan saat insiden datang.

Danish menjelaskan bahwa hal pertama yang perlu dilakukan adalah menjaga agar tidak panik. Terlebih, seorang pemipin perlu mengendalikan dan mengatur situasi yang terjadi.  Sebagai contoh, ketika traffic sedang mengalami down, kita perlu tahu apa penyebabnya, apakah karena koneksi, PPN, atau servis lainnya.

Langkah yang tidak kalah pentingnya adalah bagaimana cara kita meredam atau menghentikan insiden yang terjadi sesegera mungkin. Setelah insiden dapat diatasi dan kembali normal, kita dapat mengetahui apa yang sebenarnya terjadi dan mencari tahu solusi jangka panjangnya.

Tahapan terakhir pada manajemen insiden adalah Post-Mortem Investigation and Resolution yang dijelaskan oleh Viriya Saddha Pannindriya, Software Engineer Lead – Order Tokopedia. Pada tahap ini, Viriya menjelaskan bahwa ketika mengalami insiden, kita menjadi panik dan mencari solusi dengan cara yang cepat.

Namun, solusi tersebut bisa jadi bukanlah solusi yang tepat dan benar-benar merupakan akar dari permasalahan tersebut. Kita harus terus menggali lebih dalam tentang root cause sehingga dapat menentukan solusi jangka panjang.

Oleh karena itu, penting untuk melihat masalah sampai ke akar agar dapat mengetahui seberapa luas isu yang dihadapi.  Viriya menjelaskan langkah terakhir yang ada pada tahapan Post-Mortem Investigation and Resolution yakni Documentation.

Pada fase ini, penting untuk menjaga bagaimana suatu insiden yang pernah terjadi tidak terjadi kembali di kemudian hari. Oleh karena itu, kita perlu membuat sebuah dokumentasi dari pengalaman atau insiden tersebut sebagai track record.

Sebagai penutup, Viriya membagikan kutipan yaitu “Organizational culture is a living creature and employees are the ones who faced it”. Kutipan ini memiliki makna bahwa setiap hal yang dilakukan oleh setiap tim yang ada di suatu perusahaan merupakan nilai yang mencerminkan perusahaan tersebut.

START Summit Extension Desember menutup akhir tahun dengan lebih dari 30 ribu penonton yang menyaksikan acara ini melalui Tokopedia Play. Di tahun 2021 mendatang, Tokopedia melalui Tokopedia Academy akan kembali menghadirkan rangkaian acara teknologi yang membagikan dan membawakan tema serta praktik terbaik untuk mendorong perkembangan talenta digital masa depan di Indonesia.

Editor: Doddy Rosadi

Video Pilihan

Artikel Terkait