Корпорація Microsoft намагається зробити так, щоб людям було складніше обманювати чат-ботів зі штучним інтелектом, змушуючи їх робити дивні речі. Нові функції безпеки вбудовуються в Azure AI Studio, яка дозволяє розробникам створювати персоналізованих ШІ-помічників, використовуючи власні дані, повідомила компанія з Редмонда, штат Вашингтон, у своєму блозі в четвер.
Інструменти включають в себе “швидкі щити”, які призначені для виявлення і блокування навмисних спроб – також відомих як швидкі ін’єкційні атаки або джейлбрейки – змусити ШІ-модель поводитися непередбачуваним чином. Microsoft також бореться з “непрямими ін’єкціями”, коли хакери вставляють шкідливі інструкції в дані, на яких навчається модель, і змушують її виконувати такі несанкціоновані дії, як крадіжка інформації про користувача або захоплення системи.
Такі атаки є “унікальним викликом і загрозою”, – зазначила Сара Берд, директорка Microsoft з питань відповідального ШІ. За її словами, нові засоби захисту призначені для виявлення підозрілих вхідних даних і їх блокування в режимі реального часу. Microsoft також впроваджує функцію, яка попереджає користувачів, коли модель вигадує щось або генерує помилкові відповіді.
Microsoft прагне підвищити довіру до своїх генеративних інструментів штучного інтелекту, якими зараз користуються як споживачі, так і корпоративні клієнти. У лютому компанія розслідувала інциденти, пов’язані з чат-ботом Copilot, який генерував відповіді, що варіювалися від дивних до шкідливих. Після аналізу інцидентів Microsoft заявила, що користувачі навмисно намагалися обдурити Copilot, щоб він генерував відповіді.
“Безумовно, ми бачимо, що кількість таких атак зростає, оскільки ці інструменти все частіше використовуються, а також тому, що все більше людей знають про ці різні методи”, – сказав Берд. Ознаками таких атак є багаторазове повторення запитання чат-бота або підказки, що нагадують рольові ігри.
Microsoft є найбільшим інвестором OpenAI та зробила це партнерство ключовою частиною своєї стратегії в галузі штучного інтелекту. За словами Берда, Microsoft і OpenAI прагнуть безпечно розгортати ШІ та вбудовувати захист у великі мовні моделі, що лежать в основі генеративного ШІ.
“Однак не можна покладатися лише на модель, – сказала вона. “Наприклад, ці джейлбрейки є невід’ємною слабкістю технології моделей”.