FYI.

This story is over 5 years old.

Kemajuan teknologi

Perangkat Lunak ‘Deep Voice’ Bisa Ubah Aksen Bicara Hanya dengan Sekali Klik

‘Deep Voice’ Baidu dapat menciptakan ucapan, aksen dan suara baru dengan menggunakan potongan rekaman suara.
foro dari Shutterstock

Hanya dengan rekaman suara berdurasi 3,7 detik, algoritma teknologi AI terbaru yang dikembangkan oleh perusahaan teknologi raksasa Cina, Baidu, bisa meniru suara palsu yang akan terdengar asli. Sama seperti pesatnya perkembangan perangkat lunak machine learning yang bisa menciptakan video palsu, penelitian ini menunjukkan bahwa kita akan semakin sulit membedakan mana yang asli dan palsu di internet.

Iklan

Para periset di bidang raksasa teknologi mengumumkan kemajuan teknologi barunya, Deep Voice, sebuah sistem yang dikembangkan untuk meniru suara. Setahun yang lalu, teknologi ini membutuhkan rekaman suara berdurasi sekitar 30 menit untuk menciptakan audio baru yang palsu. Sekarang, perangkat lunak ini bisa menciptakan hasil yang lebih bagus lagi dengan contoh audio yang berdurasi beberapa detik saja.

Tapi, hasil akan semakin bagus lagi jika menggunakan beberapa contoh rekaman suara. Satu contoh akan menghasilkan rekaman yang agak kurang jelas, tetapi kualitas suaranya tidak buruk.

Kalian bisa mendengarkan contoh rekaman suara pria beraksen British di bawah ini:

Sedangkan cuplikan audio ini adalah hasil Deep Voice yang sudah diubah menjadi aksen Amerika:

Kalau ini adalah cuplikan rekaman suara perempuan berdurasi tiga detik:

Dengan menggunakan contoh suara tadi, Deep Voice lalu menciptakan ini:

Apabila menggunakan 100 contoh, rekaman suara tadi akan terdengar sama bagusnya dengan yang asli seperti ini:Kalian bisa mendengarkan contoh rekaman suara lainnya dan hasil ciptaan teknologi AI di sini.

Sistem perangkat lunak ini bisa mengubah suara perempuan menjadi pria, dan aksen British menjadi Amerika. Ini menunjukkan bahwa teknologi AI bisa meniru gaya bicara yang berbeda, mewujudkan text-to-speech yang lebih jago lagi. “Peniruan suara diharapkan memiliki aplikasi yang signifikan dalam mewujudkan human-machine interface (tampilan penghubung antara manusia dan mesin),” tulis periset di artikel blog Baidu mengenai studi mereka.

Kemunculan Deep Voice menandakan perkembangan lain dalam peniruan suara menggunakan teknologi AI dalam beberapa tahun terakhir. Adobe menunjukkan perangkat lunaknya Voco di 2016, yang bisa menciptakan suara dari teks setelah mendengarkan suara selama 20 menit. Startup AI yang berbasis di Montreal, Lyrebird, mengklaim perangkat lunaknya bisa melakukan text-to-speech menggunakan rekaman suara berdurasi satu menit.

Teknologi-teknologi ini mencerminkan kekhawatiran periset dan teoretikus mengenai kemajuan teknologi AI saat deepfake menciptakan video palsu menggunakan machine learning. Jika yang kita butuhkan hanyalah rekaman suara seseorang dan kumpulan data wajah mereka, maka kita akan dengan mudah mengubah rekaman wawancara, konferensi pers, atau segmen berita.