Pemula Wajib Kenali Exploratory Data Analysis (EDA) dalam Data Science

Padjar Iswara
Oleh Padjar Iswara - Tim Riset dan Publikasi
26 April 2022, 12:34
Qlab
Qlab

Belajar data science tidak hanya tentang teori, tapi juga harus terjun langsung menggunakan real-world data.  Dengan begitu, pemahaman terhadap proses analisis data, pencarian insight, serta pembuatan machine learning menjadi lebih mudah.

Ketika melewati proses-proses tersebut, akan ditemukan tahapan Exploratory Data Analysis (EDA), yang tergolong krusial dalam pengolahan data. Kesimpulan itu terungkap dalam event DQLab yang diselenggarakan pada Rabu, 13 April 2022.

DQLab membantu terjun ke dunia data melalui talkshow “Setiap Data Punya Cerita: Berkenalan dengan Exploratory Data Analysis (EDA)”.  Acara tersebut dilaksanakan secara daring, dengan mengundang pembicara Ronny Fahrudin, Data Scientist di S3 Innovate.

Ronny menjelaskan, data science merupakan ilmu pengetahuan interdisiplin tentang metode komputasi untuk mendapatkan informasi berharga dari sekumpulan data. Prosesnya mencakup tiga fase, yakni desain data, mengumpulkan data dan analisis data.

Dalam data science terdapat tujuh proses, yakni problem definition, data mining, data preparation, exploratory data analysis, feature engineering, model building, hingga model evaluation.

Data science pun tidak akan jauh dari Exploratory Data Analysis (EDA). “Teknologi dan manusia bisa diselaraskan, maka dari itu kita (manusia) butuh data science untuk mengolah data itu bisa menjadi insight, atau pun menjadi solusi,” kata Ronny.

Data science dianggap penting. Terlebih lagi sekarang sudah memasuki era industri 4.0 dan kehidupan mulai tidak bisa lepas dari sosial media. Setiap hari, kata dia, data-data yang berasal dari sosial media selalu tumbuh dan tidak bisa berkurang, sehingga disebut sebagai big data.

Penumpukan big data tersebut, menurut dia, harus dimanfaatkan dengan ilmu data science. Tujuannya agar big data bisa menjadi insight dan solusi. Dalam menemukan insight dan solusi dibutuhkanlah EDA.

“Bahkan di industri 5.0 nanti, teknologi dan manusia bisa diselaraskan dengan data science, salah satunya dengan EDA,” ujar Ronny.

Lebih jauh Ronny menjelaskan tentang definisi EDA. EDA adalah proses kritis dalam melakukan investigasi awal pada data untuk menemukan pola, menemukan anomali, menguji hipotesis dan memeriksa asumsi dengan bantuan statistik ringkasan dan representasi grafis (visualisasi).

EDA dibutuhkan untuk menemukan struktur atau wawasan yang tidak terduga dalam data, mengidentifikasi variabel/feature penting dalam dataset, dan menguji hipotesis atau cek asumsi-asumsi yang berhubungan dengan dataset.

Selain itu juga, EDA penting untuk mengecek kualitas data yang akan melalui cleansing process dan processing, mencari korelasi-korelasi atau sebab akibat yang ada dalam data, dan menyampaikan wawasan atau informasi tentang data kepada stakeholder

Adapun cara menilai data yang berkualitas, menurut Ronny, perlu ada parameter dan pengecekan sejumlah hal untuk menentukan kualitas data. Data yang digunakan harus lengkap sesuai kebutuhan bisnis dan harapan, akurasi data sesuai dengan realitas dunia nyata, dan data konsisten dengan jenis sebelumnya.

Halaman:

Cek juga data ini

Berita Katadata.co.id di WhatsApp Anda

Dapatkan akses cepat ke berita terkini dan data berharga dari WhatsApp Channel Katadata.co.id

Ikuti kami

Artikel Terkait

Video Pilihan
Loading...