Mengenal DeepSeek, Open Source AI yang Unggul Dibanding ChatGPT hingga Llama
Perusahaan asal Cina DeepSeek merilis model AI open source DeepSeek V3 sejak akhir tahun lalu. Bila dibandingkan dengan model AI lainnya, DeepSeek unggul hampir di seluruh tolok ukur.
Melansir laman resmi DeepSeek, model AI ini punya total 671 juta parameter. Angka ini jauh lebih tinggi dari Llama 3.1 buatan Meta yang punya total parameter 405 juta. Jumlah parameter ini menjadikannya yang terbanyak dibanding dengan model AI open source lainnya.
Parameter adalah variabel internal yang digunakan model untuk membuat prediksi atau keputusan. TechCrunch menulis jumlah parameter kerap berkorelasi dengan keterampilan. Model dengan lebih banyak parameter cenderung mengungguli model dengan lebih sedikit parameter.
“Namun, model yang lebih besar juga memerlukan perangkat keras yang lebih kuat agar dapat berjalan. Versi DeepSeek V3 yang tidak dioptimalkan akan memerlukan sejumlah GPU kelas atas untuk menjawab pertanyaan dengan kecepatan yang wajar,” tulis TechCrunch, dilansir Senin (6/1)
Dalam sebagian kecil kompetisi pengodean yang diselenggarakan di Codeforces, sebuah platform untuk kontes pemrograman, DeepSeek mengungguli model lain, termasuk Llama 3.1 405B milik Meta, GPT-4o milik OpenAI, dan Qwen 2.5 72B milik Alibaba.
DeepSeek V3 juga mengalahkan pesaingnya pada Aider Polyglot, sebuah pengujian yang dirancang untuk mengukur, antara lain, apakah sebuah model dapat berhasil menulis kode baru yang terintegrasi ke dalam kode yang sudah ada.
Model versi ketiga ini lebih cepat tiga kali lipat dari versi sebelumnya jadi bisa memproses 60 token per detik. Perusahaan juga mengklaim DeepSeek V3 dilatih lewat 14,8 triliun token dataset.
Dalam ilmu data alias data science, token digunakan untuk mewakili bit data mentah. Satu juta token setara dengan sekitar 750.000 kata.