Google DeepMind представила конкурента Sora — нову модель Veo 2 для створення відео

автор Vitaliy Kairov 18 Гру, 2024

Компанія DeepMind, дослідницький підрозділ Google, анонсувала нове покоління моделі штучного інтелекту для генерації відео Veo 2. Ця технологія може створювати двохвилинні ролики у роздільній здатності 4K, хоча наразі доступ до неї обмежений платформою VideoFX від Google з розміром відео у 720p та тривалістю лише вісім секунд.

Головним конкурентом Veo 2 є Sora від OpenAI, яку нещодавно відкрили для передплатників. Sora генерує ролики у 1080p з максимальною тривалістю 20 секунд. Попри обмеження Veo 2 на платформі VideoFX, потенціал моделі значно вищий, особливо у роздільній здатності відео.

Veo 2 використовує текстові підказки для створення реалістичних відео. Модель також здатна генерувати мультяшні анімації та має кілька ключових покращень:

Вища реалістичність та точність — особливо у динамічних сценах.
Краща обробка рухів — завдяки «розумінню фізики» модель генерує правдоподібні рухи.
Управління камерою стало точнішим і ефективнішим.

Журналісти TechCrunch, які отримали приклади відео, відзначили високу якість матеріалу. Зокрема, модель добре обробляє складні фізичні ефекти, такі як заломлення світла та рідини — наприклад, кленовий сироп.

Попри значний прогрес, Veo 2 ще не вирішила всіх проблем:

Ефект “зловісної долини” — коли відео виглядає майже реалістично, але викликає дискомфорт через незначні неточності.
Динамічні та складні сцени досі становлять виклик для моделі.

Розробники DeepMind підкреслили, що працюють над покращенням продуктивності та усуненням цих недоліків у майбутніх версіях.

DeepMind підтвердила, що Veo 2 навчалася на великій кількості відеоконтенту, однак компанія не розголошує конкретні джерела. Є припущення, що одним із них міг бути YouTube, яким володіє Google.

Джерело Google