Mengenal Big Data Media Sosial yang Menghebohkan

Ilustrator: Joshua Siringo Ringo | Katadata
Senior Lecturer S1Digital Business Technology - Direktur Riset dan Inovasi Universitas Prasetiya Mulya
Penulis: St Wisnu Wijaya
25/4/2022, 08.10 WIB

Akhir-akhir ini kita mendengar istilah big data yang disampaikan oleh satu pejabat penting negeri ini. Dia menyatakan bahwa ada 110 juta data percakapan media sosial yang mendukung penundaan pemilu 2024.

Terminologi big data pun menjadi key word yang banyak dicari di Google. Sebenarnya, apakah big data tersebut? Bagaimana kita mendapatkannya? Dan bagaimana kita mengolah agar bisa mendapatkan kesimpulan yang valid dari Big Data?

Istilah big data dipopulerkan oleh John Masey dalam presentasinya pada 1998 yang berjudul “Big Data...and the Next Wave of InfraStress” (https://static.usenix.org/event/usenix99/invited_talks/mashey.pdf). 

Big data menjadi sangat populer ketika Roger Mougalas dari OReally Media menggunakan istilah ini untuk merujuk pada sekumpulan data yang volumenya sangat besar dan tidak dapat diolah dengan metode dan teknologi pengolahan data tradisional. Di tahun yang sama, lahirlah Hadoop, teknologi pengolahan data yang mampu mengolah sejumlah data yang sangat besar.

Selain volume yang sangat besar, big data juga memiliki karakteristik bervariasi sumber dan property data yang populer disebut sebagai variety. Sumber data dapat berasal dari media sosial, data transaksi perusahaan, maupun data dari mesin mesin cerdas. Tentu saja property dari data tersebut bervariasi, contohnya data media sosial dapat berupa data teks percakapan, gambar, dan video.

Selain memiliki variasi yang beragam, big data juga memiliki karakteristik tumbuh dengan cepat atau disebut dengan velocity. Contohnya adalah data percakapan media sosial yang tumbuh luar biasa setiap detik.

Big data yang bersumber dari media sosial merupakan hulu data yang menarik perhatian masyarakat, khususnya setelah kontroversi persoalan big data penundaan pemilu yang sempat menghebohkan belakangan ini.

Berdasarkan data dari We Are Social, jumlah pengguna media sosial di Indonesia mencapai 191,4 juta pengguna atau sekitar 68,9 % dari total populasi. Jumlah ini tersebar di berbagai platform media sosial mulai dari Facebook, Youtube, Instagram, Tik Tok, dan Twitter.

Setiap orang bisa memiliki akun di berbagai platform tersebut. Rincinya, pengguna Facebook mencapai 129,9 juta orang, Instagram 99,15 juta pengguna, Youtube 139 juta pemakai, Tik Tok 92 juta pengguna sedangkan Twitter sebanyak 18 juta pengguna.

Tentu saja jumlah pemakai yang sangat besar ini dapat menciptakan konten dan relasi antar-pengguna yang sangat besar sekali. Volume data yang sangat besar ini perlu diolah dengan pendekatan tertentu yang berbeda dengan pengolahan data secara tradisional, memerlukan teknologi artificial intelligence serta kemampuan komputasi yang super.

Bagaimana mengukur volume percakapan di media sosial? Tentu saja dapat diukur dari jumlah user yang terlibat dalam percakapan dan jumlah percakapan yang dihasilkan.

Jadi ketika berbicara volume big data di media sosial, kedua hal tersebut dapat digunakan sebagai tolok ukur utama yang dapat digunakan, misalnya data percakapan Twitter dengan kata kunci “3 periode” di bawah ini yang diunduh melalui aplikasi NodeXL. Metode yang digunakan adalah social network analytics yang mampu memetakan pengguan yang terlibat dalam percakapan tertentu serta topik yang dibicarakan dalam percakapan tersebut.

Data di bawah ini tentu saja belum bisa dikatakan sebagai sebuah big data karena jumlah yang diolah masih sangat sedikit. Namun metode yang digunakan dapat dimanfaatkan sebagai ilustrasi pengolahan data media sosial.

Jumlah akun yang terlibat sebanyak 4.157 pengguna unik ditunjukkan dengan lingkaran berwarna. Relasi antar-pengguna ditunjukkan dengan garis yang menghubungkan antar-lingkaran berwarna. Semakin besar ukuran lingkaran maka semakin populer pengguna tersebut artinya dia banyak di-mention dalam sebuah percakapan.

Relasi ini menggambarkan percakapan yang terjadi antar-pengguna. Semakin tebal garisnya maka semakin banyak percakapan yang terjadi. Sehingga volume big data akan mengacu ke dua hal tersebut, yaitu jumlah user atau percakapan yang timbul antar-pengguna.

Tentu saja jumlah percakapan antar pengguna ini bisa lebih besar dari pada jumlah user yang ada. Dengan kata lain, seorang pengguna A dan pengguna B dapat bercakap-cakap lebih dari satu kali, bahkan tidak terbatas. Dalam kasus ini terdapat 6.105 percakapan unik antar-pengguna.

Contoh Pemodelan Big Data (St Wisnu Wijaya)

Terkait dengan pengguna ini, perlu dilakukan validasi apakah pengguna ini nyata atau fake account? Hasil penelitian yang dipublikasikan di https://socialmediahq.com/twitter-has-a-huge-fake-follower-problem/ menunjukkan bahwa jumlah fake follower di Twitter dari pengguna yang sangat populer mencapai 40 %.

Artinya, 40 % dari percakapan yang dihasilkan oleh follower ini sebenarnya merupakan fake conversation juga. Sehingga tidak dapat digunakan sebagai bagian dalam menghitung opini publik terhadap sebuah kebijakan pemerintah, misalnya. Dengan kata lain percakapan ini perlu dikeluarkan dari keperluan analisis dan pengambilan kesimpulan atau jika tetap digunakan maka hasil kesimpulan dianggap tidak valid.

Selain memanfaatkan pendekatan social network analytics, analisis percakapan yang dapat dilakukan dengan menggunakan pendekatan sentiment analysis untuk melihat opini percakapan bersifat pro, kontra, atau netral. Sentimen analisis biasanya menghasilkan persentase percakapan dengan tiga kategori di atas. Ada banyak algoritme yang bisa digunakan untuk melakukan analisis sentimen.

Media sosial merupakan platform yang dapat menjadi sumber dari sebuah big data yang bermanfaat untuk berbagai hal. Salah satu manfaatnya yaitu memahami preferensi masyarakat, opini yang sedang berkembang di masyarakat, dan tentu saja berguna untuk keperluan pemasaran. Namun validitas data yang dihasilkan perlu diteliti sebelum kesimpulan diambil, untuk menghindari terjadinya kesimpulan yang jauh validitasnya.

St Wisnu Wijaya
Dean School of Science, Technology, Engineering and Mathematics (STEM) Universitas Prasetiya Mulya

Catatan Redaksi:
Katadata.co.id menerima tulisan opini dari akademisi, pekerja profesional, pengamat, ahli/pakar, tokoh masyarakat, dan pekerja pemerintah. Kriteria tulisan adalah maksimum 1.000 kata dan tidak sedang dikirim atau sudah tayang di media lain. Kirim tulisan ke opini@katadata.co.id disertai dengan CV ringkas dan foto diri.