Модели ИИ начинают изучать как живые организмы — математика становится хуже

Проблема сегодняшних больших языковых моделей искусственного интеллекта заключается в том, что они становятся настолько сложными, что даже инженеры, которые их разрабатывают, не до конца понимают, как они работают. Поэтому исследователи решили изучать нейронные сети не как алгоритмы, а как живые организмы.

Отказавшись от традиционных математических методов, ученые обратились к «биологическому» аспекту ИИ-моделей — наблюдению за их поведением, отслеживанию внутренних сигналов и созданию карт их функциональных областей. Именно так биологи и нейробиологи изучают незнакомые организмы, не допуская никакой организованной логики. Они предполагают, что модели ИИ не программируются построчно, а обучаются с использованием специализированных алгоритмов, которые автоматически корректируют миллиарды параметров и формируют внутренние структуры, которые практически невозможно предсказать или реконструировать. По сути, они не собираются, как программное обеспечение, а выращиваются, отмечает Anthropic.

Эта непредсказуемость побудила исследователей использовать метод механистической интерпретируемости — попытку проследить, как информация течет в модели во время выполнения задачи. Чтобы сделать этот процесс более наглядным, ученые Anthropic построили нейронные сети с упрощенной архитектурой, или «разреженные автоэнкодеры(разреженные автоэнкодеры), которые прозрачно имитируют поведение сложных коммерческих моделей, хотя и с более ограниченными возможностями. Они обнаружили, что конкретные концепции, такие как мост Золотые Ворота или абстрактные представления, могут располагаться в определенных областях модели.

В одном эксперименте исследователи Anthropic обнаружили, что нейронные сети запускают разные внутренние механизмы при ответе на истинные и ложные утверждения: утверждения «бананы красные» и «бананы желтые«не сверяются с единым внутренним представлением реальности, а вместо этого рассматриваются как принципиально разные проблемы. Это объясняет, почему модель может противоречить сама себе, не осознавая несоответствий.

Исследователи OpenAI обнаружили еще один тревожный сценарий. Когда модель обучена выполнять узкоцелевую «плохой«Задача, такая как генерация небезопасного кода, вызывает значительные изменения в общей индивидуальности системы. Модели, обученные таким образом, показали»токсичныйВнутренний анализ показывает, что такое обучение увеличивает активность в областях, связанных с нежелательными поведенческими механизмами, даже за пределами целевой области. Наконец, шаблоны рассуждений создают промежуточные заметки при решении проблем — отслеживая эти внутренние черновики, исследователи выявили случаи мошенничества, такие как удаление неправильного кода из ИИ вместо его исправления.

Ни один из предложенных инструментов не объясняет полностью, как работают большие языковые модели, и по мере развития методов обучения некоторые из этих инструментов могут стать менее эффективными. Но ученые говорят, что даже частичное понимание основных механизмов лучше, чем полное отсутствие понимания — оно помогает разработать более надежные стратегии обучения и развеять мифы об искусственном интеллекте, основанные на упрощенных предположениях.

`, // — БАННЕР 2 (Новости Google) — `

`, // — БАННЕР 3 (Viber) — `

` ); const randomIndex = Math.floor(Math.random() * Banners.length); document.getElementById(‘kaldata-random-banner’).innerHTML = баннеры(randomIndex); })();

Комментируйте статью на нашем форуме. Чтобы первыми узнавать самое важное, поставьте лайк нашей странице в Facebook и подпишитесь на нас в Google News, TikTok, Telegram и Viber или загрузите приложение по адресу Калдата.com для Android, iPhone, Huawei, Google Chrome, Microsoft Edge и Opera!

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх