Pembuat ChatGPT, OpenAI, akan meluncurkan model AI baru yang bernama GPT-4o. Teknologi AI ini mampu melakukan percakapan suara yang realistis dan mampu berinteraksi melalui teks dan gambar.
“GPT-4o (o = omni) adalah langkah menuju interaksi manusia-komputer yang jauh lebih alami,” kata OpenAI melalui laman resminya, dikutip Rabu (15/5).
OpenAI menjelaskan GPT-4o dapat menerima kombinasi teks, audio, gambar, dan video apa pun sebagai masukan. Mesin ini dapat menghasilkan kombinasi teks, audio, dan gambar apa pun.
GPT-4o yang didukung dengan kemampuan audio ini memungkinkan pengguna untuk berbicara dengan ChatGPT dan mendapatkan respons real-time tanpa penundaan. Pengguna juga dapat menyela ChatGPT saat sedang berbicara. “Ia dapat merespons input audio hanya dalam 232 milidetik, dengan rata-rata 320 milidetik, setara dengan waktu respons manusia dalam sebuah percakapan,” katanya.
CEO OpenAI Sam Altman mengatakan sebagai pengalaman baru dalam inteaksi komunikasi dengan AI. "Berbicara dengan komputer tidak pernah terasa begitu alami bagi saya, sekarang terasa alami,” kata Altman dalam sebuah posting blog, dikutip dari Reuters, Rabu (15/5).
Pada acara siaran langsung tersebut, para peneliti OpenAI memamerkan kemampuan asisten suara ChatGPT yang baru. Dalam satu demo, ChatGPT menggunakan kemampuan penglihatan dan suaranya untuk berbicara dengan seorang peneliti dalam menyelesaikan persamaan matematika di selembar kertas.
Dalam demo lainnya, para peneliti menunjukkan kemampuan model GPT-4o dalam menerjemahkan bahasa secara real-time.
Demonstrasi yang ditunjukkan oleh OpenAI ini mendekati fiksi ilmiah. Di mana para peneliti OpenAI mengatakan kepada chatbot bahwa dia sedang dalam suasana hati yang baik dengan mengatakan “betapa berguna dan menakjubkannya Anda.”
“Oh, hentikan! Anda membuat saya tersipu malu!,” respons ChatGPT itu.