Google створила алгоритм, який реалістично заповнює переривання під час аудіодзвінка

Google розробив нову технологію для поліпшення якості звуку в Duo Calls. Розробники використовують спеціальний алгоритм, який аналізує останні фрагменти мови і заповнює паузу реалістично синтезованим голосом співрозмовника.

Якщо ви коли-небудь дзвонили через Інтернет, швидше за все, ви знаєте, що таке тремтіння звуку, через яке мова співрозмовника здається неприродньою. Це відбувається, коли пакети аудіо, відправлені як частина виклику, губляться по дорозі або надходять пізно, іноді в неправильному порядку.

Google повідомляє, що 99% дзвінків у Duo втрачають ці пакети.

Для вирішення цієї проблеми майже у всіх програмах застосовується той чи інший алгоритм маскування втрати пакетів (PLC). Зазвичай алгоритм PLC повторює останній записаний фрагмент або новий звук з базовими характеристиками фрагмента — це підходить для коротких пауз, які продовжуються 10-20 мілісекунд. Але якщо загубилося більше пакетів і пауза збільшилася до декількох десятків мілісекунд, робота алгоритму стає явно помітна.

Для таких випадків розробники створили алгоритм, здатний створювати реалістичну заміну втраченим пакетам. Алгоритм заснований на нейромережі для синтезу звуку WaveRNN, створеної розробниками з цих компаній в 2018 році. WaveNetEQ навчений на роботі з даними більш ніж 100 людей, які говорять на 48 різних мовах.

Ось кілька прикладів аудіо від Google, які порівнюють WaveNetEQ з NetEQ, популярну технологію PLK. Ось як це звучить, коли алгоритм намагається замінити 60 мс втрати пакета:

Однак є межа того, скільки звуку може замінити система. Технологія Google призначена для заміни коротких звуків, а не цілих слів, тому з паузою більш ніж у 120 мс йому справитися важче.

Google з грудня тестувала алгоритм в Duo на смартфонах Google Pixel 4, а тепер почала поширювати його на інших пристроях.