Компанія DeepMind, дослідницький підрозділ Google, анонсувала нове покоління моделі штучного інтелекту для генерації відео Veo 2. Ця технологія може створювати двохвилинні ролики у роздільній здатності 4K, хоча наразі доступ до неї обмежений платформою VideoFX від Google з розміром відео у 720p та тривалістю лише вісім секунд.
Головним конкурентом Veo 2 є Sora від OpenAI, яку нещодавно відкрили для передплатників. Sora генерує ролики у 1080p з максимальною тривалістю 20 секунд. Попри обмеження Veo 2 на платформі VideoFX, потенціал моделі значно вищий, особливо у роздільній здатності відео.
Veo 2 використовує текстові підказки для створення реалістичних відео. Модель також здатна генерувати мультяшні анімації та має кілька ключових покращень:
- Вища реалістичність та точність — особливо у динамічних сценах.
- Краща обробка рухів — завдяки «розумінню фізики» модель генерує правдоподібні рухи.
- Управління камерою стало точнішим і ефективнішим.
Журналісти TechCrunch, які отримали приклади відео, відзначили високу якість матеріалу. Зокрема, модель добре обробляє складні фізичні ефекти, такі як заломлення світла та рідини — наприклад, кленовий сироп.
Попри значний прогрес, Veo 2 ще не вирішила всіх проблем:
- Ефект “зловісної долини” — коли відео виглядає майже реалістично, але викликає дискомфорт через незначні неточності.
- Динамічні та складні сцени досі становлять виклик для моделі.
Розробники DeepMind підкреслили, що працюють над покращенням продуктивності та усуненням цих недоліків у майбутніх версіях.
DeepMind підтвердила, що Veo 2 навчалася на великій кількості відеоконтенту, однак компанія не розголошує конкретні джерела. Є припущення, що одним із них міг бути YouTube, яким володіє Google.