Исследователи из Массачусетского института нашли способ «взглянуть» на языковые модели, которые предсказывают структуру и функции белка, и понять, как они принимают свои решения. С этой целью ученые применили специальный алгоритм, который «разворачивает» работу нейронной сети, позволяя им точно увидеть, какие свойства белка учитывают каждый элемент модели. Этот прорыв не только объясняет, как работает искусственный интеллект, но также потенциально будет ускорить спрос на новые лекарства и вакцины.
Языковые модели для прогнозирования белка появились в 2018 году благодаря работе Бонни Бергер и Тристана Бплера. Эти инструменты основаны на крупных языковых моделях (LLM), но анализируют аминокислотные последовательности вместо слов. С ними ученые могут предсказать структуру и функцию белков и обнаруживать потенциальные мишени для вакцин. В 2021 году Бергер и его коллеги использовали такую модель для прогнозирования областей вирусных поверхностных белков, которые наименее могут мутировать, так что вирус избегает иммунного ответа. Таким образом, были выявлены возможные цели для гриппа, ВИЧ и SARS-COV-2.
Однако у этих моделей одна проблема: Невозможно понять, как именно они делают прогнозыS Модели дают результаты, но внутренняя работа нейронной сети остается непрозрачной, и ученым трудно определить, какие характеристики белка наиболее важны для прогноза. Крупные языковые модели, как правило, функционируют как «черный ящик» — проблема, которая беспокоится о таких разработчиках, как антроп.
В новом исследовании команда Массачусетского технологического института (MIT) исследует, как языковые модели образуют их прогнозы белка. Модели кодируют информацию о белке в форме представлений — моделей активации множественных «узлов» в нейронной сети. Каждый узел является элементом сети, который реагирует на определенные характеристики белка, аналогично тому, как нейроны в воспоминаниях о хранении мозга о конкретных вещах. Обычно модель активации ограничена небольшим количеством узлов, такими как 480, и каждый узел кодирует несколько свойств белка одновременно, что делает интерпретацию практически невозможной.
Чтобы решить эту проблему, ученые использовали редкий автоэкодер, алгоритм, который превращает жесткое представление белка в гораздо более согласованный и подробный детальный. AutoEncoder расширяет количество узлов до десятков тысяч, например, 20 000, создавая пространство, в котором отдельные характеристики белка могут быть «распределены» по отдельным узлам. Это означает, что характеристика белка, которая ранее была кодирована несколькими узлами, может взять узел.
Как объясняет докторская степень, в разбавленной презентации активации узлов становятся «значимыми», в отличие от плотной производительности, в результате чего информация упакована настолько плотно, что почти невозможно понять, за что это узел.
После создания разбавленных выступлений исследователи используют помощника искусственного интеллекта, чтобы анализировать узлы. Система сравнивала узлы с известными характеристиками белков, таких как функция, семейство или локализация в клетке, и описали их на простом языке, например, «нейрон может быть ответственным за перенос ионов через клеточную мембрану».
Этот процесс делает узлы гораздо большим «интерпретацией», позволяя исследователям точно понять, какие характеристики белка кодируют каждый узел. Таким образом, узлы чаще всего отражают принадлежность к конкретному семейству белка и специфических функций, включая различные метаболические и биосинтетические процессы.
Ученые теперь смогут выбрать наиболее подходящую модель для конкретной задачи и оптимизировать ввод для получения более точных прогнозов. Кроме того, этот подход открывает возможность выявить неизвестные биологические модели до сих пор. В долгосрочной перспективе такие методы позволят изучать белки на большей глубине, чем когда -либо, только анализируя внутренние представления моделей. В результате биологические исследования станут более прозрачными и эффективными.