Новий ШІ Google створює аудіотреки та діалоги для відео
Звук – це важливий компонент більшості фільмів і відео. Навіть у часи німого кіно музичний супровід допомагав глядачам відчувати емоції. Це правило залишається незмінним і для нових генеративних відео на основі штучного інтелекту, які без звуку здаються дивно безжиттєвими.
Ось чому Google працює над технологією “video-to-audio” (V2A), яка робить можливим синхронізоване створення аудіовізуального контенту. Лабораторія штучного інтелекту Google, DeepMind, поділилася прогресом у створенні аудіо, яке включає звукові доріжки та діалоги, що автоматично підлаштовуються під відео, створене ШІ.
Google активно розробляє мультимодальну генеративну технологію ШІ, щоб конкурувати з іншими гравцями на ринку. Наприклад, OpenAI має свій генератор відео Sora (ще не випущений у публічний доступ) і GPT-4o, який створює голосові відповіді. Компанії, як Meta і Suno, теж досліджують створення аудіо та музики за допомогою ШІ, але поєднання аудіо з відео є відносно новою областю. ElevenLabs має схожий інструмент, який синхронізує аудіо з текстовими запитами, але DeepMind стверджує, що V2A відрізняється тим, що не потребує текстових підказок.
V2A можна використовувати з інструментами для створення відео, такими як Google Veo, або з існуючими архівними матеріалами та німими фільмами. Ця технологія може створювати саундтреки, звукові ефекти та навіть діалоги. V2A працює за допомогою дифузійної моделі, яка навчена за допомогою візуальних входів, природних мовних підказок та анотацій відео, щоб поступово перетворювати випадковий шум на аудіо, що відповідає тону та контексту відео.
DeepMind стверджує, що V2A може “розуміти сирі пікселі”, тому текстові підказки не є обов’язковими для створення аудіо, хоча вони покращують точність. Модель також можна налаштувати на створення позитивного або негативного тону аудіо. Разом з оголошенням DeepMind випустила кілька демонстраційних відео, включаючи відео темного, моторошного коридору зі звуковим супроводом у стилі жахів, самотнього ковбоя на заході сонця з меланхолійною мелодією на гармоніці та анімаційного персонажа, що говорить про свою вечерю.
V2A включатиме водяний знак Google SynthID як захисний захід проти зловживань, а в блозі DeepMind зазначається, що функція зараз проходить тестування перед публічним релізом.