OpenAI meluncurkan layanan Application Programming Interface atau API ChatGPT dan Whisper. Layanan ini memungkinkan developer aplikasi mana pun menggunakan ChatGPT dan Whisper.
Whisper adalah sistem pengenalan ucapan otomatis. OpenAI mengatakan, sistem ini andal dalam mengubah suara menjadi teks dalam berbagai bahasa, termasuk menerjemahkannya ke bahasa Inggris.
Whisper bisa mengubah suara dalam berbagai format, termasuk M4A, MP3, MP4, MPEG, MPGA, WAV dan WEBM menjadi teks.
Pengembang ChatGPT, OpenAI pun mengenakan biaya US$ 0,006 per menit untuk suara yang diubah menjadi teks di Whisper.
Selain Whisper, raksasa teknologi seperti Google, Amazon, dan Meta sudah membuat sistem pengenalan suara dan mengubahnya menjadi teks.
Presiden sekaligus Pemimpin OpenAI Greg Brockman mengutip survei Statista pada 2000 mengenai hambatan yang dirasakan oleh pengguna selama menggunakan sistem pengenalan suara yang sudah ada, di antaranya:
- Akurasi
- Pengenalan aksen atau dialek
- Biaya
“Whisper API berbeda karena dilatih dengan 680 ribu jam data multibahasa dan ‘multitask’ yang dikumpulkan dari web,” kata dikutip dari TechCrunch, Rabu (1/3).
Hasil dari pelatihan tersebut memungkinkan Whisper API mengenali suara dengan aksen unik. Selain itu, mengatasi kebisingan di balik suara dan mengenali jargon tertentu yang digunakan oleh warga di tiap negara atau daerah.
“Whisper API adalah model besar yang sama yang bisa Anda dapatkan dari sumber terbuka (open source), tetapi kami telah mengoptimalkannya secara ekstrem. Ini jauh lebih cepat dan sangat nyaman,” ujar Brockman.
Namun pengembang ChatGPT itu menyampaikan, Whisper memiliki keterbatasan, terutama terkait prediksi ‘kata berikutnya’. Sebab, sistem dilatih pada sejumlah besar data suara yang bising.
Pengembang ChatGPT itu pun memperingatkan bahwa Whisper mungkin menyertakan kata-kata dalam transkripsi, yang sebenarnya tidak diucapkan. Hal ini karena AI di balik Whisper mencoba untuk memprediksi kata berikutnya dalam audio.
Namun developer ChatGPT itu mengoptimalkan pengembangan Whisper. Selain itu, “menyempurnakan persyaratan layanan Whisper API,” kata OpenAI dalam laman resmi.
Jika keterbatasan itu diatasi dan OpenAI masuk ke pasar speech-to-text, maka hal ini dinilai akan menguntungkan Microsoft. Raksasa teknologi ini mendukung developer ChatGPT itu sejak 2019.
Sedangkan pasar speech-to-text diperkirakan bernilai US$ 5,4 miliar pada 2026, atau naik dibandingkan 2021 US$ 2,2 miliar.
Selain Whisper, ChatGPT kini bisa digunakan di aplikasi manapun yang bekerja sama dengan OpenAI.
(REVISI: Ada perubahan pada judul, keterangan, dan paragraf pertama Pukul 12.49 WIB)