Компанія Microsoft офіційно презентувала своє інноваційне рішення – штучний інтелект VALL-E може імітувати голос будь-якої людини, прослухавши запис тривалістю лише 3 секунди. Що важливо, голос імітується зі збереженням тембру та емоційного забарвлення голосу.
У Microsoft називають своє нове рішення “мовною моделлю нейронного кодеку”, у її основі використовується EnCodec. На відміну від інших методів перетворення тексту, які переважно синтезують людське мовлення, маніпулючи формами сигналів, рішення від Microsoft аналізує саме звучання голосу людини, розбиває ці дані на окремі токени та використовує отримані дані для розуміння того, як голос буде звучати при озвученні іншого тексту.
Для навчання VALL-E використовувалась бібліотека LibriLight, яка включає 60000 годин мовлення англійської від понад семи тисяч людей. Нагадаємо, що компанія Google презентувала своє рішення Duplex, який може синтезувати дуже реалістичний людський голос, ще у 2018 році, але у ШІ Microsoft VALL-E суть саме в можливості імітувати голоси різних людей.