Pengujian pada kumpulan data seperti LibriSpeech dan VCTK menunjukkan bahwa kualitas suara VALL-E 2 cocok atau melebihi kualitas ucapan manusia.
Microsoft telah membuat lompatan maju yang signifikan dalam pembuatan ucapan AI dengan sistem text-to-speech (TTS) VALL-E 2. VALL-E 2 mencapai paritas manusia, artinya sistem ini dapat menghasilkan suara yang tidak dapat dibedakan dari orang sungguhan. Sistem ini hanya membutuhkan beberapa detik audio untuk mempelajari dan meniru suara pembicara.
Pengujian pada kumpulan data ucapan seperti LibriSpeech dan VCTK menunjukkan bahwa kualitas suara VALL-E 2 menyamai atau bahkan melampaui kualitas suara manusia. Fitur-fitur seperti ‘Repetition Aware Sampling’ dan ‘Grouped Code Modeling’ memungkinkan sistem untuk menangani kalimat-kalimat kompleks dan frasa-frasa berulang secara alami, sehingga menghasilkan keluaran ucapan yang lancar dan realistis.
Meskipun merilis sampel audio, Microsoft menganggap VALL-E 2 terlalu canggih untuk dirilis ke publik karena potensi penyalahgunaan seperti pemalsuan suara. Pendekatan yang hati-hati ini sejalan dengan kekhawatiran industri yang lebih luas, seperti yang terlihat pada pembatasan OpenAI pada teknologi suaranya.
Meskipun VALL-E 2 merupakan terobosan yang signifikan, untuk saat ini masih merupakan proyek penelitian. Pengembangan AI terus berlanjut, dengan perusahaan berusaha menyeimbangkan inovasi dengan pertimbangan etika.





