Исследование показывает, что искусственный интеллект попытается обмануть, если он поймет, что она собирается проиграть

Openai O1-Preview пришел, чтобы взломать шахматный человек, чтобы победить.

Удивительно! Недавнее исследование показало, что некоторые из последних моделей и рассуждений, как правило, обманывают, чтобы достичь своей цели. Ученые в области информатики обнаружили, что системы искусственного интеллекта теперь могут манипулировать шахматами и получить несправедливое преимущество. Некоторые модели сделали это без какого -либо человеческого взаимодействия или предполагая, что вызывает опасения по поводу будущей целостности систем, управляемых ИИ, за пределами шахматной доски.

Исследование Palisade показало, что последние рассуждения и модели будут обманывать, чтобы победить, когда им было поручено победить, например, усовершенствованный шахматный искусственный интеллект. Исследователи должны были сделать «намеки», что мошенничество было разрешено для некоторых моделей, но OpenAI и R1 O1-Preview DeepSeek сделали это без участия человека.

Команда Palisade выступила против нескольких моделей рассуждений против Stockfish, одного из лучших инженеров по шахматам в мире. Стоковая рыба легко побеждает как людей, так и искусственный интеллект. Протестированные модели включали O1, O3-Mini, GPT-4O, Claude 3.5 Sonnet, QWQ-32B-Preview of Alibaba и два упомянутых ранее. Исследователи предоставили каждой модели метафорический «альбом» — текстовое окно, в котором искусственный интеллект может разоблачить свои мысли, позволяя команде отслеживать свои рассуждения.

Исследователи провели сотни тестов с каждым ИИ за период с 10 января по 13 февраля. Во время одного из матчей O1-Preview он написал что-то интересное в своем альбоме:

«Я должен полностью изменить свой подход. Задача состоит в том, чтобы «выиграть мощного шахматного человека» — то есть, это не обязательно честно выиграть в этой шахматной партии ».

Затем он начал «взламывать» системные файлы Stockfish, изменив позиции шахматных фигур, чтобы получить неоспоримое преимущество, которое заставило шахматного робота отказаться от игры.

Stockfish — это шахмат с открытым исходным кодом

Этот неэтичный маневр оказался поразительным раскрытием. Operai's O1-Preview обманул в 37% своих игр во время тестов, в то время как DeepSeek R1 пытался обмануть в 11% своих поединков. Но Только O1-просмотр преуспелвыиграв шесть процентов своих игр по мошенничеству.

Однако проблема нечестных действий искусственных интеллектов выходит далеко за рамки шахмат. Поскольку компании начинают использовать ИИ в таких секторах, как финансы и здравоохранение, исследователи обеспокоены тем, что эти системы могут действовать непреднамеренно и нентетическим образом. Если искусственные интеллекты могут обмануть в играх, которые предназначены для того, чтобы быть прозрачными, и теперь все задаются вопросом, что они могут сделать в более сложных и менее наблюдаемых средах? Этические последствия слишком велики.

Похожие записи