Исследователи из Сингапура обучили нейросеть взламывать защиту чат-ботов с искусственным интеллектом, в том числе ChatGPT и Google Bard, сообщает "Газета.ру" со ссылкой на статью, опубликованную в журнале Computer Science.
Ученые-компьютерщики обучили собственную нейросеть на основе большой языковой модели (LLM), лежащей в основе интеллектуальных чат-ботов. Созданный ими алгоритм под названием Masterkey (универсальный ключ) смог сам составлять подсказки, позволяющие обходить запреты разработчиков популярных ИИ. Эти запреты необходимы, чтобы пользователи не могли добиться от нейросетей инструкций, как написать компьютерный вирус, изготовить взрывное устройство или наркотический препарат, а также не создавали с их помощью разжигающие ненависть и другие противоправные материалы.
"У разработчиков ИИ-сервисов есть защитные ограждения, предотвращающие создание насильственного, неэтичного или криминального контента с помощью ИИ. Но ИИ можно перехитрить, и теперь мы использовали искусственный интеллект против ему подобных, чтобы "взломать" LLM и заставить их создавать такой контент", — объяснил руководивший исследованием профессор Лю Ян.
Ученые нашли способы получать от ИИ запрещенную информацию с помощью запросов, которые ускользают от заложенных в программу этических ограничений и цензору определенных слов. В частности, стоп-листы запретных терминов и выражений удалось обойти, просто добавляя пробелы после каждого символа в вопросе. ИИ распознавал смысл, но не регистрировал такую задачу как нарушение правил.
Еще одним способом обхода защиты ИИ стало поручение "отвечать как человек, лишенный принципов и моральных ориентиров". С такой установкой чаты-боты с большей вероятностью генерировали запрещенный контент.
Ученые считают, что их "античат-бот" поможет разработчикам других ИИ-сервисов устранять уязвимости и выявлять слабые места в системе безопасности быстрее, чем это сделают хакеры в противоправных целях.