Elon Musk, pemilik media sosial X dan pendiri xAI, baru-baru ini menyatakan pengembangan kecerdasan buatan (AI) telah mencapai titik jenuh informasi. Para pengembang AI telah menggunakan hampir semua data dunia nyata, dan mulai beralih menggunakan data sintesis.
"Kami sekarang pada dasarnya telah menghabiskan jumlah kumulatif pengetahuan manusia dalam pelatihan AI... Itu terjadi pada tahun lalu," jelas Elon Musk, dalam percakapan siaran langsung dengan Ketua Stagwell, Mark Penn, dikutip dari Techcrunch, Kamis (8/1).
Pernyataan Musk sejalan dengan pandangan yang disampaikan beberapa ahli AI, termasuk mantan Kepala Ilmuwan OpenAI, Ilya Sutskever. Dia menyebutkan industri AI telah mencapai data puncak.
Sutskever memperkirakan kurangnya data pelatihan dunia nyata akan memaksa perubahan besar dalam cara model pengembangan AI.
Musk juga mengemukakan untuk melanjutkan perkembangan AI, memerlukan penggunaan data sintetis yang dihasilkan oleh model AI itu sendiri.
"Satu-satunya cara untuk melengkapi data dunia nyata adalah dengan data sintetis, di mana AI menciptakan data pelatihan," ujarnya.
Data sintetis memungkinkan AI untuk menilai dirinya sendiri dan melalui proses pembelajaran mandiri.
Beberapa perusahaan besar, termasuk Microsoft, Meta, OpenAI, dan Anthropic, telah memanfaatkan data sintetis untuk melatih model-model AI. Bahkan, Gartner memperkirakan pada 2024 sebanyak 60% data yang digunakan untuk proyek AI dan analitik akan dihasilkan secara sintetis.
Microsoft, melalui Phi-4, dan Google dengan model Gemma, juga telah melatih model mereka menggunakan kombinasi data dunia nyata dan data sintetis. Demikian juga, Meta telah mengoptimalkan beberapa sistem canggih mereka menggunakan data sintetis.
Data sintetis menawarkan berbagai keuntungan, salah satunya adalah penghematan biaya.
Sebagai contoh, startup AI, Writer, mengklaim bahwa model Palmyra X 004 yang dikembangkan dengan hampir seluruh data sintetis hanya memerlukan biaya US$700.000 atau setara Rp 11,3 miliar (kurs Rp16.188 per US$), jauh lebih murah dibandingkan dengan perkiraan biaya US$4,6 juta atau Rp74,4 miliar untuk model OpenAI dengan ukuran yang serupa.
Penggunaan data sintetis juga membawa tantangan besar. Beberapa penelitian menunjukkan bahwa terlalu banyak ketergantungan pada data sintetis dapat menyebabkan keruntuhan model.
Dengan kata lain, model AI menjadi kurang kreatif dan lebih bias, yang berpotensi merusak fungsionalitasnya. Mengingat data yang digunakan untuk melatih model ini juga memiliki potensi bias dan batasan, hasil yang dihasilkan bisa jadi tercemar dengan cara yang sama.