Британські розробники навчили штучний інтелект грати в ігри, не знаючи їхніх правил
У 2016 році компанія DeepMind представила AlphaGo — ШІ, який перемагав найкращих гравців в китайську настільну гру Го. Після розробники продовжили вдосконалювати роботу алгоритму, випустивши ще кілька проектів. Однак усі алгоритми пов’язувало те, що вони знали правила ігор і тренувалися перед матчами. Тепер компанія готова представити новий більш досконалий проект під назвою MuZero — цьому ШІ йому не потрібно знати правила гри, щоб вигравати.
Замість того, щоб використовувати правила для пошуку найкращого сценарію (бо він просто не може), MuZero вчиться брати до уваги кожен аспект ігрового середовища. Він використовує дерево пошуку і модель самонавчання.
Щоб зрозуміти це, подумайте, як би ви грали в стратегічну гру, таку як шахи, наприклад. Перед тим як зробити хід, ви зазвичай думаєте, який хід зробить ваш суперник. Приблизно так само працює MuZero — він намагається спланувати кілька ходів наперед.
Замість того, щоб моделювати все, алгоритм намагається враховувати тільки ті фактори, які важливі для прийняття рішення. Як вказує DeepMind, це те, що роблять люди.
При прийнятті рішення MuZero бере до уваги три фактори: він розглядає результат свого попереднього рішення, поточний стан, в якому він знаходиться, а також найкращий курс дій, якому варто слідувати далі. Цей, здавалося б, простий підхід робить MuZero найефективнішим алгоритмом DeepMind на сьогоднішній день.
Розробники стверджують, що незабаром MuZero можна буде застосовувати на практиці. Зокрема його хочуть залучити для розробки нового виду компресії відео, що могло б допомогти платформі YouTube скоротити витрати на їх зберігання.