Apple випустила модель штучного інтелекту, яка може редагувати зображення на основі текстових команд

Apple точно не є одним з провідних гравців на ринку штучного інтелекту, але нова модель штучного інтелекту з відкритим вихідним кодом для редагування зображень показує, який внесок вона здатна зробити в цю сферу.

Модель під назвою MLLM-Guided Image Editing (MGIE) використовує мультимодальні великі мовні моделі (MLLM) для інтерпретації текстових команд при маніпулюванні зображеннями. Іншими словами, інструмент має можливість редагувати фотографії на основі тексту, який вводить користувач. Хоча це не перший інструмент, який може це робити, “людські інструкції іноді занадто короткі, щоб сучасні методи могли їх зафіксувати й виконати”, – йдеться в документі проєкту (PDF).

Компанія розробила MGIE разом з дослідниками з Каліфорнійського університету в Санта-Барбарі. MLLM здатні перетворювати прості або неоднозначні текстові підказки на детальніші та зрозуміліші інструкції, яким може слідувати сам фоторедактор. Наприклад, якщо користувач хоче відредагувати фотографію піци з пепероні, щоб “зробити її більш здоровою”, MLLM може інтерпретувати це як “додати овочеву начинку” і відредагувати фото таким чином.

На додаток до внесення основних змін до зображень, MGIE може також обрізати, змінювати розмір і обертати фотографії, а також покращувати їхню яскравість, контрастність і колірний баланс, і все це за допомогою текстових підказок. Він також може редагувати певні ділянки фотографії і, наприклад, змінювати волосся, очі та одяг людини на ній, або видаляти елементи на задньому плані.

Як зазначає VentureBeat, Apple випустила модель через GitHub, але зацікавлені також можуть спробувати демоверсію, яка наразі розміщена на Hugging Face Spaces. Apple ще не повідомила, чи планує вона використовувати те, що вона дізнається з цього проєкту, як інструмент або функцію, яку вона може включити в будь-який зі своїх продуктів.