Model AI Terbaru OpenAI, Voice Engine Bisa Kloning Suara dengan Sampel 15 Detik!

Author

Mahfud

Reading time:

News

March 30, 2024

readmode

OpenAI mengumumkan model AI terbarunya bernama Voice Engine yang punya fungsi untuk menciptakan suara sintetis alias kloning suara. Namun, yang membuatnya menarik adalah Voice Engine hanya perlu sampel 15 detik untuk melakukan kloning suara, sementara kebanyakan model AI voice clonning lainnya butuh lebih dari satu menit sampel.

Kendati demikian, Voice Engine masih belum diluncurkan secara publik. OpenAI mengatakan model AI terbarunya masih di uji coba dalam skala kecil pada beberapa platform yang dianggap memiliki kontribusi positif seperti Age of Learning yang merupakan platform edukasi. Dengan hanya sampel 15 detik, Voice Engine dapat menirukan suara hampir sama persis.

Sampel 15 detik:

Hasil Voice Engine:

OpenAI mengungkapkan bahwa mereka sudah mulai mengembangkan Voice Engine pada akhir tahun 2022 lalu dan model AI tersebut sudah mendukung preset suara untuk API text-to-speech dan fitur Read Aloud dari ChatGPT. Seorang anggota tim produk OpenAI untuk Voice Engine mengatakan bahwa model tersebut dilatih berdasarkan gabungan data berlisensi dan tersedia untuk umum.

Soal ketersediaannya, OpenAI menyebut Voice Engine hanya akan tersedia untuk sekitar 10 pengembang. Namun, siapa saja pengembang dan kapan bakal diluncurkan secara publik masih dirahasiakan. Sejauh ini ada beberapa platform text-to-audio AI alias voice over AI seperti ElevenLabs atau Podcastle, akan tetapi Voice Engine dari OpenAI terlihat jauh lebih powerful ketimbang lainnya.

Sebelumnya, OpenAI juga mengumumkan model AI text-to-video bernama Sora yang juga sangat powerful. Sora dapat menciptakan video yang super realistis hanya dengan menggunakan prompt teks. Kabar terbarunya, Sora bakal meluncur ke publik pada akhir tahun ini.

Sumber