В настоящее время индустрия разработки ИИ сталкивается с серьезной системной проблемой. Создание мультимодальных нейронных сетей — программ, способных одновременно обрабатывать текст, звук и изображения — увеличит их вычислительную мощность. Разработчики создают гигантские модели с сотнями миллиардов параметров, пытаясь заставить один алгоритм выполнять все возможные задачи. Однако такой подход порождает критические ошибки, которые нельзя исправить простым добавлением серверов.
Основная проблема современных мультимодальных систем – неспособность обрабатывать противоречивую информацию. Независимые тесты показывают, что популярная модель LLaVA-7B доверяет текстовым данным в десять раз больше, чем визуальным. Если показать такой нейросети картинку пустой таблицы, но в текстовом запросе написать «описать яблоко на этой таблице», то алгоритм, скорее всего, начнет описывать несуществующее яблоко. Система игнорирует собственные визуальные датчики в пользу текстовой подсказки. В отрасли это называется «доминирование модальности«.
Пытаясь решить эту проблему, группа исследователей в области информатики пришла к выводу, что Кремниевая долина неправильно создает искусственный интеллект, поскольку игнорирует принципы работы единственного известного нам универсального интеллекта — человеческого мозга.. Они полностью отказались от концепции монолитной нейронной сети и создали архитектуру, структурно и функционально имитирующую нейробиологические процессы.
Этот биомиметический подход позволил им создать искусственный интеллект, который работает непрерывно, самостоятельно выявляет логические несоответствия и потребности. аналог биологического снадля закрепления памяти. При этом вся архитектура оказалась настолько оптимизированной, что для его полноценной работы достаточно стандартной потребительской видеокарты (например RTX 4050 с 6 гигабайтами памяти), а не дорогих серверных кластеров.
Ошибка раннего слияния данных
Главный недостаток существующих искусственных интеллектов заключается в том, как именно они обрабатывают разнородную информацию. В современных моделях используется метод «раннего слияния». Текстовые, звуковые и графические пиксели практически сразу преобразуются в единый математический формат и смешиваются.
Исследователи полагаются на нейробиологические «Эффект Макгерка«. Если человек слышит один слог, но видит губы, произносящие другой, мозг часто синтезирует третий, ложный звук. Современный искусственный интеллект повторяет эту ошибку в промышленных масштабах: когда данные противоречат сами себе, он пытается математически усреднить их в самом начале, что приводит к галлюцинациям.
Чтобы избежать этого, в новой архитектуре используется принцип «позднего слияния»характерный для высшей нервной деятельности. Данные анализируются независимыми модулями и их результаты сравниваются между собой, прежде чем система даст окончательный ответ. Вычислительный процесс жестко разделен на три уровня, каждый из которых имеет свой биологический прототип.
Анатомия искусственного мозга
Первый уровень: сенсорная кора (узкоспециализированные модели)
Для восприятия базовой информации архитектура не использует ресурсоёмкие системы уровня GPT-4. Эту роль выполняют малые специализированные модели (МСМ). Подобно тому, как в человеческом мозге зрительная и слуховая кора разделены, в этом ИИ одна маленькая программа отвечает только за зрение, вторая за звук, а третья за чтение кода. Они работают параллельно и непрерывно, обрабатывая рутинные стимулы за миллисекунды и с минимальными затратами энергии.
Второй уровень: передняя поясная извилина (детектор конфликтов).
Результаты работы «органов чувств» поступают на проверку в специальный алгоритм. В человеческом мозге передняя поясная извилина (ACC) отвечает за обнаружение логических ошибок и противоречий. Его цифровой аналог многокаскадный каскадный детектор.
Если визуальная модель не обнаруживает кнопку на экране, но текстовая модель утверждает, что она есть, возникает конфликт. Статистика показывает, что в 90% рутинных задач датчики согласуются друг с другом. В таких случаях данные обходят сложную логику, и система реагирует мгновенно. Но в 10% случаев детектор замечает несоответствия и блокирует автоматическое срабатывание.
Третий уровень: префронтальная кора (ресурсоёмкий анализ)
Только когда обнаруживается явное противоречие, система преодолевает так называемый «порог срабатывания» (концепция нейробиолога Станисласа Дина) и активирует большой языковой паттерн. Это аналог префронтальной коры головного мозга, отвечающий за высшие когнитивные функции и сознание. «Сознание» — самый энергоемкий ресурс системы. Модель активируется исключительно в качестве судьи: анализирует конфликт, оценивает надежность каждого источника и синтезирует окончательное решение, а затем снова отключается.
Цифровые нейротрансмиттеры и сеть пассивного режима
Обычная нейронная сеть возвращается в исходное состояние после формирования ответа. В новой архитектуре появился фоновый алгоритм»,ядро идентичности«, работает постоянно. Это прямая ссылка на мозговую сеть режима по умолчанию (DMN), которая активна у людей во время отдыха, самоанализа и поддержания самоощущения. Этот модуль хранит глобальные цели и параметры безопасности ИИ. Каждое решение фильтруется через это ядро перед его выполнением, что обеспечивает логическую непрерывность поведения.
Более того, поведение ИИ не жестко запрограммировано, а контролируется цифровыми аналогами нейротрансмиттеров, которые реагируют на ошибки прогнозирования:
- Дофамин (скорость обучения): если система получает неожиданно эффективный результат, уровень «дофамина» увеличивается, что заставляет алгоритм быстрее закреплять успешный шаблон.
- Норадреналин (порог тревоги): регулирует внимание. При частых ошибках уровень повышается, алгоритм становится «бдительным» и чаще отправляет данные на проверку тяжелой аналитической моделью.
- Серотонин (баланс стратегий): определяет, будет ли искусственный интеллект использовать проверенные закономерности (эксплуатация) или искать новые нестандартные пути (исследование).
- Кортизол (уровень стресса): когда времени мало, кортизол ИИ принудительно уменьшает количество проверок, заставляя систему жертвовать тщательностью в пользу скорости.
Дополнительные системы памяти и потребность во сне
Одна из самых больших проблем в машинном обучении: «катастрофическое забвение«, где новые данные перезаписывают и уничтожают старые алгоритмы. Исследователи решили эту проблему, применив теорию дополнительных систем обучения (CLS), которая описывает взаимодействие гиппокампа человека и неокортекса. Память искусственного интеллекта делится на два этапа.
Во время бодрствования базовые нейронные сети не переобучаются. Вся новая информация сохраняется в векторной базе данных (цифровой гиппокамп). Это рабочая память, которая позволяет ИИ быстро обращаться к недавнему контексту, не меняя структуру алгоритмов. Однако хранить такие данные вечно неэффективно. Поэтому система нуждается в регулярных периодах отключения – стадии сна. В этот момент ИИ перестает получать внешние запросы. Начинается процесс медленного сна (NREM), в ходе которого система сканирует векторную базу, отбирает наиболее важную информацию и передает ее базовым весам самих нейронных сетей (неокортексу) с помощью контролируемого предварительного обучения.
Затем наступает аналог сна с быстрыми движениями глаз (фаза быстрого сна): система генерирует синтетические обучающие примеры («мечты») для лучшего обобщения нового опыта. Информация, к которой ИИ никогда не имел доступа, безвозвратно удаляется. После пробуждения архитектура обновила знания без малейшего риска повредить свои старые основные навыки.
Важность для технологической отрасли
Представленная концепция доказывает, что интеллект вычислительной системы зависит не столько от накопления вычислительных мощностей, сколько от грамотной организации процессов.
Копирование нейробиологических механизмов — разделение задач на автономные корковые слои, применение жестких логических фильтров, использование химических балансировщиков для регулирования поведения и интеграция циклов сна — позволяет нам создавать искусственный интеллект на радикально другом уровне. Это автономная, постоянно обучающаяся и самоконтролирующая система, способная работать на обычных компьютерах, избегая фатальных галлюцинаций, свойственных многим сегодняшним гигантам.

