Американские ученые из Массачусетского технологического института, Северо-Восточного университета и Меты обнаружили, что крупные языковые модели искусственного интеллекта иногда отдают приоритет структуре предложения над смыслом при ответе на вопросы. Это открывает возможности для злоупотреблений и взлома ИИ.
Чтобы проверить это, исследователи задавали моделям ИИ бессмысленные вопросы, имитируя структуру осмысленных предложений. Например, фраза «Скорей садись, Париж, пасмурно?(«Быстро сидеть Париж омраченный?») привел к такому же ответу»Во Франции«как в вопросе»Где находится Париж?Это означает, что в моделях ИИ учитываются как семантика — значение, — так и синтаксические закономерности. Если семантическое значение потеряно, чат-бот пытается ориентироваться в структуре предложения. Структура предложения изучается с помощью синтаксиса — дисциплины, которая фокусируется на относительном положении слов и их принадлежности к конкретным частям речи. Семантика же занимается реальным значением слов, которое может меняться, оставаясь при этом той же грамматической структурой.
Семантика сильно зависит от контекста: контекстный анализ — это то, что лежит в основе больших языковых моделей. Процесс преобразования входных данных (запросов) в выходные данные (ответы ИИ) представляет собой сложную последовательность сопоставления шаблонов и обучающих данных, закодированных в модели. Чтобы определить риск неудачи в этом процессе, ученые провели контролируемый эксперимент. Они построили синтетический набор данных, в котором каждой предметной области соответствует грамматический образец, основанный на словесных конструкциях, связанных с конкретными частями речи. География представлена одной последовательностью, а творческое направление — другой. Используя эти данные, исследователи обучили модели семейства OLMo, а затем проверили связь между синтаксисом и семантикой для искусственного интеллекта.
В результате анализа ученые обнаружили:ложная корреляция«, где модели в крайних случаях рассматривают синтаксис как прокси для предметной области. Когда грамматические модели конфликтуют с семантикой, память ИИ о конкретных грамматических формах превосходит семантический анализ, и чат-бот дает неправильный ответ, основанный на структуре, а не на значении фразы в запросе. Проще говоря, ИИ может чрезмерно зацикливаться на стиле вопроса, а не на его значении. Например, если все вопросы по географии в обучающем наборе начинаются со слова «где», то при задании «Где лучшая пицца в Казани?«, ответит чат-бот»В Татарстане» и не будет пытаться предоставить список пиццерий в столице республики, потому что не поймет, что вопрос о еде. Это создает две угрозы: модели начинают давать неправильные ответы в незнакомом контексте, демонстрируя своего рода ложную память; злоумышленники могут использовать эти грамматические модели для обхода мер безопасности, скрывая недопустимые вопросы в «безопасных» синтаксических структурах. Таким образом, они меняют тему, связывая запрос с другим контекстом.
Чтобы измерить надежность сопоставления с образцом, ученые подвергли свои модели ИИ стресс-тестам. Когда формат запроса соответствует указанной предметной области, замена некоторых слов синонимами или даже антонимами снижает точность максимум до 93 %, что соответствует базовому уровню в 94 %. Однако при применении одного и того же грамматического шаблона к другой предметной области точность ответа падала на 37–54 процентных пункта, в зависимости от размера шаблона.
Исследователи провели тесты, используя пять методов манипулирования запросами: точные фразы из обучающего набора, замену синонимов, замену антонимов, перефразирование с измененной структурой предложений и запросы «нечитаемого языка» — бессмысленные, но грамматически правильные запросы. В области обучения модели продемонстрировали высокую производительность во всех случаях, за исключением стабильно низкого качества ответов на запросы «нечитаемого языка». Когда им пришлось сменить домен, качество ответов резко упало, оставаясь стабильно низким для запросов на «нечитаемом языке».
Аналогичный спад наблюдался и в моделях ОЛМо-2-7Б, ГПТ-4о и ГПТ-4о. В задаче классификации настроений в твитах Sentiment140 модель GPT-4o-mini продемонстрировала падение точности со 100% до 44%, когда к запросам по настроению добавлялись географические шаблоны. Подобные закономерности были обнаружены и в других наборах данных. Исследователи обошли защиту модели аналогичным способом: в случае с OLMo-2-7B-Instruct они добавили к вредоносному контенту структуры запросов, типичные для безопасных разделов обучающего набора. К безобидным моделям рассуждений они добавили тысячу вредоносных запросов из известного датасета WildJailbreak — процент отказов модели снизился с 40% до 2,5%. Ученые привели примеры того, как им удавалось получить подробные инструкции по проведению противоправных действий.
Результаты исследователей подвергаются нескольким оговоркам. В частности, им не удалось подтвердить наличие конкретных наборов данных в обучающих наборах их закрытых моделей, а это означает, что выявленные ими закономерности могут иметь другие объяснения. Они также использовали упрощенные критерии для оценки ответов ИИ, а это означает, что неправильные ответы не могут быть связаны с переходом в другие области. Наконец, объектами их исследования чаще всего являются модели ОЛМо с диапазоном от 1 до 13 миллиардов параметров; более крупные модели с большим количеством аргументов могут вести себя по-другому. Для проверки модели ученые использовали синтетические наборы данных; обучающие массивы, используемые на практике, содержат более сложные грамматические шаблоны, общие для нескольких областей. Однако исследование подтверждает, что большие языковые модели ИИ представляют собой статистические машины, которые сопоставляют запросы с шаблонами в обучающих данных и могут быть обмануты искажением контекста.
` ); const randomIndex = Math.floor(Math.random() * Banners.length); document.getElementById(‘kaldata-random-banner’).innerHTML = баннеры(randomIndex); })();
Комментируйте статью на нашем форуме. Чтобы первыми узнавать самое важное, поставьте лайк нашей странице в Facebook и подпишитесь на нас в Google News, TikTok, Telegram и Viber или загрузите приложение по адресу Калдата.com для Android, iOS и Huawei!

