Persamaan Google China belajar untuk meniru suara manusia dalam masa kurang dari satu minit

Video lucu murid dan guru ngakak....! (Julai 2019).

$config[ads_text] not found
Anonim

Deep Voice 3 mengajar mesin untuk bercakap dengan meniru ribuan suara manusia dari orang di seluruh dunia

Oleh Jean-Jacques DeLisle, penyumbang penulis

Perisian Baidu's Deep Voice 3 boleh mengklon suara seseorang. Sumber imej: Pixabay.

Satu kejayaan dalam teknologi emulasi suara digital baru-baru ini dikeluarkan oleh Google yang setaraf Google, Baidu . Baidu mendakwa bahawa sistem text-to-speech (TTS) yang baru, yang dikenali sebagai Deep Voice 3, boleh belajar meniru dengan tepat mana-mana suara manusia menggunakan kurang daripada satu minit audio. Kemajuan ini datang di tengah-tengah perlumbaan teknologi untuk mencapai perisian emulasi TTS yang lebih dipercayai, dengan pemukul berat seperti Google yang sudah berjalan dengan projek TTS "wavenet" mereka. Adobe juga dalam perlumbaan itu, yang baru-baru ini melancarkan prototaip perisian TTS "Projek VOCO, " yang dapat belajar untuk meniru suara dalam 20 minit.

Walau bagaimanapun, para penyelidik Baidu menggunakan pendekatan yang berbeza ketika menghadapi dilema teks-ke-ucapan dan memperkenalkan sesuatu yang unik. Pasukan ini melaksanakan dua pendekatan berbeza dalam reka bentuknya: penyesuaian speaker dan pengekodan pembesar suara. Kedua-duanya boleh bekerja dengan cara yang berlainan untuk peranti yang berlainan atau boleh digunakan bersama-sama, tetapi garis bawah adalah bahawa mereka mendapat pekerjaan yang dilakukan lebih cepat daripada persaingan.

Penyesuaian speaker berfungsi dengan pendekatan berasaskan penyebaran latar belakang yang didasarkan pada model generatif berbilang penceramah hanya untuk pembawa suara pembesar suara rendah. Dengan kata lain, program ini akan membentuk model berdasarkan suara suara anda dan kemudian menjalankan perisian teks-ke-pertuturan sepanjang model itu, dengan simulasi dengan ketepatan relatif sekurang-kurangnya kekerapan dan nada suara anda. Ini boleh digunakan dengan peranti yang lebih mudah dan program lain yang akan membolehkan anda menetapkan iHome atau Siri anda kepada suara tersuai.

Pengekodan pembesar suara berfungsi dengan berbeza dan menggabungkan model generatif berbilang penceramah dengan model berasingan yang menjana pembicara baru yang tertanam dari audio klon. Pendekatan ini secara dramatiknya mengurangkan masa pengklonan hanya pada selang beberapa saat dan mempunyai beberapa parameter kerja yang sangat sedikit, bermakna ia boleh dicapai dengan agak murah dan kemudian mudah digunakan ke peranti sedia ada. Bentuk simulasi suara sedemikian boleh meniru aksen, nada, dan nuansa halus dalam ucapan, mewujudkan replikasi yang sangat meyakinkan.

Jadi apa implikasi jenis pengklonan suara ini? Baidu berharap ia berguna untuk semua jenis peranti, seperti iHome atau Siri, telefon pintar, GPS, dan banyak lagi. Dapat mendengar suara orang yang disayangi, atau bahkan diri sendiri, membimbing anda melalui lalu lintas akan menjadi lebih menyenangkan untuk telinga anda daripada suara berkomputer yang mungkin kita dengar sekarang. Tetapi adakah aplikasi benar-benar tidak bersalah? Tidakkah teknologi ini jauh menurunkan keberkesanan keselamatan pengesahan suara? Bolehkah selebriti atau ahli politik mempunyai suara mereka "dicuri" dan kemudian digunakan untuk siaran berniat jahat atau menyebarkan maklumat salah? Bolehkah seseorang mencuri suara anda dan menggunakannya untuk mengancam seseorang atau melakukan jenayah lain dalam nama anda? Untuk setiap teknologi baru yang kami buat, terdapat aplikasi positif dan negatif, dan teknologi TTS yang baru ini tidak berbeza.