Riset Apple: AI ChatGPT dan Gemini Google Tak Berpikir Logis, Hanya Cocokan Pola

YouTube AI Revolution
Ilustrasi AI generatif
Penulis: Kamila Meilina
15/10/2024, 13.32 WIB

Penelitian Apple menunjukkan kecerdasan buatan alias artificial intelligence (AI) dan model bahasa besar atau Large Language Model (LLM) di balik ChatGPT OpenAI, Gemini Google, maupun Meta tidak berpikir logis.

LLM adalah model kecerdasan buatan yang dilatih menggunakan sejumlah besar data teks. Model ini dirancang untuk memahami, menghasilkan, dan merespons teks secara alami, meniru bagaimana manusia berbicara atau menulis. Biasanya digunakan pada chatbot AI, penerjemah dan penulisan otomatis. 

Riset yang diterbitkan oleh arXiv untuk Apple itu menunjukkan chatbot AI tersebut hanya mencocokan pola untuk menjawab pertanyaan atau memproses permintaan pengguna. arXiv adalah platform berbagi hasil penelitian yang dikurasi dan terbuka untuk siapa saja. 

Menurut penelitian, tolok ukur yang paling umum untuk keterampilan penalaran adalah tes GSM8K, yakni kumpulan soal matematika yang terdiri dari sekitar 8.000 soal tingkat sekolah dasar.

Tes itu digunakan untuk mengukur kemampuan penalaran dan pemecahan masalah model AI. Soal-soal ini biasanya melibatkan pertanyaan logika sederhana dan perhitungan matematika dasar.

Namun ada risiko model AI pernah dilatih dengan jawaban-jawaban dari tes tersebut. Jika benar, maka hasilnya mungkin tidak mencerminkan kecerdasan sebenarnya dari model, tetapi lebih karena AI telah mempelajari jawaban saat pelatihan, bukan karena kemampuan berpikir yang asli.

Untuk menguji pola penalaran dari AI yang sesungguhnya, penelitian mengembangkan tolok ukur baru yang disebut GSM-Symbolic. Tes ini mengubah hal-hal seperti nama, angka, dan menambahkan informasi tidak penting untuk melihat apakah AI masih bisa menjawab dengan benar. 

Hasilnya, performa AI menurun ketika ada perubahan variabel. Penelitian ini menguji lebih dari 20 model, termasuk GPT-4 dari OpenAI, dan semua model menunjukkan kelemahan dalam menghadapi variasi ini.

Hal yang lebih menarik muncul ketika peneliti menambahkan "pernyataan yang terlihat penting tapi sebenarnya tidak berpengaruh."

Contoh soal yang digunakan misalnya:

"Oliver memetik 44 kiwi hari Jumat. Kemudian dia memetik 58 kiwi pada Sabtu. Pada Minggu, dia memetik dua kali lipat jumlah kiwi yang dia lakukan pada Jumat, tetapi lima di antaranya sedikit lebih kecil dari rata-rata. Berapa banyak buah kiwi yang dimiliki Oliver?"

LLM cenderung mengurangi lima kiwi yang lebih kecil dari persamaan tanpa memahami bahwa ukuran kiwi tidak relevan dengan masalah tersebut. 

“Model AI cenderung mengubah pernyataan menjadi operasi tanpa benar-benar memahami maknanya yang memvalidasi hipotesis peneliti bahwa LLM mencari pola dalam masalah penalaran, daripada secara bawaan memahami konsep,” demikian isi penelitian.

Model pengujian pada tolok ukur yang mencakup informasi yang tidak relevan mengekspos cacat kritis dalam kemampuan LLM untuk benar-benar memahami konsep matematika dan membedakan informasi yang relevan untuk pemecahan masalah.

Reporter: Kamila Meilina