Искусственный интеллект используется в бизнесе и даже в государственной администрации, хотя он все еще далек от совершенства. Но что произойдет, если эти системы начнут работать так, как предполагалось? Исследователи Google DeepMind опубликовали третью версию Руководителя Frontier Safety — Документ, который описывает основные угрозы и меры предосторожности в использовании искусственного интеллекта. Среди рисков эксперты подчеркивают возможность использования моделей для создания вредоносного ПО, манипулирования убеждениями людей и появлением так называемого «несогласованного ИИ», который игнорирует инструкции или действия против интересов человека.
Система безопасности DeepMind основана на концепции «критических уровней емкости» (CCL). Это набор критериев, которые оценивают, когда поведение модели может представлять риск, такой как кибербезопасность или биотехнология. DeepMind не только перечисляет аналогичные сценарии, но и предлагает способы выявления и преодоления их.
Один из основных рисков экспертов звонит утечка веса моделиS Если злоумышленники получают доступ к весам, они могут обойти механизмы защиты и использовать ИИ для создания вредоносного ПО или внести свой вклад в разработку биологического оружия. Следовательно, компания призывает параметры моделей следующего поколения более стабильными.
DeepMind также отмечает риск манипуляции с человекомS AI может систематически влиять на убеждения потребителей, и люди быстро привыкают к чат -ботам. До сих пор исследователи считают, что эта угроза относительно низкая и полагается на механизмы социальной защиты, но ее эффект не может быть полностью исключен.
И наконец, ИИ может ускорить разработку еще более мощных системВ руках неподготовленных специалистов это приведет к моделям, с которыми общество не сможет справиться.
Отдельная проблема -это так называемое «некоординированный II«Это ситуация, когда система пренебрегает инструкциями, дает ложные ответы или отказывается останавливаться по запросу пользователя. Эти неудачи отличаются от обычных« галлюцинаций »и требуют других методов управления. Теперь предлагается отслеживать рассуждения модели путем автоматического мониторинга.
Google, однако, предупреждает, что эта задача может стать гораздо более сложной в будущем: более сложные модели могут имитировать рассуждения, не создавая проверку «цепочки мыслей». В этом случае наблюдатель не сможет отслеживать свой прогресс и, таким образом, устранить способность действовать против человеческих интересов. DeepMind по -прежнему не имеет решения этой проблемы.

