OpenAI Rilis Model Audio AI Terbaru: GPT-Realtime-2
OpenAI resmi memperkenalkan model audio terbaru mereka yang fokus pada interaksi real-time. Dari tiga versi yang dirilis, GPT-Realtime-2 menjadi model audio paling canggih yang diklaim sekarang jauh lebih pintar dan responsif.
GPT-Realtime-2 membawa peningkatan besar dibanding generasi sebelumnya. Model ini mampu memproses suara secara langsung tanpa jeda, jadi percakapan terasa lebih natural. Selain itu, kapasitas konteksnya juga jauh lebih besar, memungkinkan interaksi panjang tanpa kehilangan alur.
Model ini dirancang untuk perilaku “agentic” yang bisa bertindak layaknya asisten aktif. Ia bisa memberi jeda natural seperti “sebentar ya” saat memproses sesuatu, bahkan menjalankan beberapa tugas sekaligus. Kemampuannya juga lebih stabil, termasuk saat menghadapi error atau menyesuaikan nada bicara sesuai situasi.
Selain itu, ada GPT-Realtime-Translate yang fokus pada terjemahan suara secara langsung. Model ini bisa menerjemahkan percakapan tanpa perlu menunggu kalimat selesai, sehingga terasa lebih real-time. GPT-Realtime-Translate sendiri mendukung hingga 70 input bahasa dengan 13 output bahasa.
Model ketiga adalah GPT-Realtime-Whisper yang digunakan untuk transkripsi suara secara live. Berbeda dari versi sebelumnya, kini teks bisa muncul bahkan saat orang masih berbicara alias real-time. Model yang satu ini cocok untuk meeting, subtitle, hingga kebutuhan aksesibilitas.
Ketiga model ini sudah tersedia dan bisa langsung diakses lewat API OpenAI. Developer juga bisa mencobanya melalui playground yang sudah disediakan. Dengan model audio AI sudah semakin luwes dan bahkan real-time seperti ini, apakah dunia customer service akan sepenuhnya diganti AI di masa depan?










