Databoks.id berkolaborasi dengan DQLab menyelenggarakan webinar “Data Community Collabs”. Acara ini merupakan bentuk dukungan pengembangan ilmu data science di Indonesia yang terbuka bagi seluruh latar belakang pendidikan. 

Webinar yang berlangsung pada Jumat 3 Maret 2023 ini mengundang pembicara Yogi Yulianto sebagai Data Engineer di Databoks.id. 

Membawa topik utama “Kehidupan Data Engineer di Industri Media”, Yogi menjelaskan tentang data engineering sebagai rangkaian aktivitas yang melibatkan desain, pengumpulan, menyimpan, memroses, dan menganalisis sejumlah besar data. Tujuannya, mempersiapkan data serta membuat keputusan bisnis yang didukung oleh data.

Ia juga mengungkapkan perbedaan dari tiga profesi umum data science sebagai ilmu utama atau payung profesi data, yaitu data scientist, data engineer, dan data analyst. Meski memiliki perbedaan dari segi skill dan tanggung jawab, ketiga profesi tersebut tetap saling berkaitan dalam menjalankan tugasnya.

“Karena disini kita mau mendalami data engineer, jadi  secara khusus profesi ini akan melakukan proses berupa data cleansing dan ETL (extract, transform, load) dengan sumber data yang berasal dari database, object store serta file systems,” ujar Yogi.

Ia mengatakan, ada beberapa hard skill dan tools yang dibutuhkan untuk menjadi data engineer. Pertama database management seperti MySQL, Cassandra atau Postgree. Kedua, bahasa pemrograman seperti Python, Java, dan Scala. Ketiga, teknologi cloud seperti AWS dan Azure. Terakhir, computing frameworks Hadoop dan Spark.

Yogi juga menjelaskan beberapa tugas harian atau daily task Data Engineer di Databoks. Menurutnya, membuat, pemeliharaan, dan melakukan monitoring automating content dalam proses ETL menjadi tugas utama harian yang selalu dijalankan.

“Proses ETL ini sebenarnya jadi inti tugas atau daily task data engineer di Databoks. Contohnya, kita mau bersi informasi mengenai gempa yang terjadi pukul 2 subuh. Jurnalis tidak akan selalu sedia 24/7 untuk membuat artikel atau informasi tersebut. Nah, data engineer melalui monitoring automating bisa membuat konten gempa otomatis dari BMKG,” katanya.

Lebih lanjut, ia mengungkapkan, tugas yang dilakukan ialah support data analyst untuk scraping dan cleaning data dari berbagai sumber. Selain itu, riset untuk NLP model, seperti keyword extractor, sentiment analysis hingga summarization juga perlu dilakukan untuk mendukung media agar menyediakan informasi yang sesuai.

Databoks merupakan bagian dari Katadata yang dikenal sebagai platform berita dan informasi dengan variasi lini bisnis seperti Katadata.co.id, Katadata Learning Center, Sisi by Katadata. Secara khusus, Databoks.id adalah portal data statistik ekonomi, bisnis, riset, migas, serta industri yang terbaru dan terlengkap di Indonesia.