ASI-BRCH-это экспериментальная демонстрация искусственного суперинтентория для исследований искусственного интеллекта, который способен полностью автономной научной работе, чтобы открыть новые архитектуры нейронных сетей.
Система независимо раскрывает гипотезы, реализует их как исполняемый код, обучает их и проверяет их на практике. Результатом этой работы являются автономные эксперименты 1773 года, которые занимают более 20 000 часов GPU и приводят к открытию 106 новых архитектур SOTA с механизмом линейного внимания.
Весь процесс разделен на 2 этапа: поиск гипотез и их тестирование
На первом этапе система работает с небольшими моделями с около 20 миллионов параметров, обучая их на 1 миллиард токена. На этом этапе были проведены эксперименты в 1773 году, которые заняли около 10 000 часов графического процессора. В общей сложности на этом этапе было выбрано 1350 многообещающих кандидатов — все они выходят за рамки базовой архитектуры Deltanet как по убыткам, так и на контрольных показателях.
Второй этап — проверка. Кандидаты с первого этапа масштабируются до 340 миллионов параметров в соответствии с конфигурацией Deltanet. После фильтрации архитектур с чрезмерной сложностью или количеством параметров осталось около 400 моделей. Их обучение более 1 миллиарда токенов потребовало еще 10 000 часов графического процессора. В конце концов, именно из этой группы были выбраны 106 архитектур, достигнув уровня SOTA.
Для окончательной проверки исследователи выбрали 5 лучших моделей, обучили их на 15 миллиардов токенов и сравнили их с Mamba2, закрытым Deltanet и Deltanet.
Анализ предпочтений системы выявил интересные модели
ASI-BRCH, очевидно, предпочитает работать с компонентами, тренируемыми по времени: дар и революции. Но самое главное, что распределение компонентов в 106 лучших моделей имеет значительно менее выраженное распределение распределения длинного хвоста, чем другие 1667, созданные архитектуры.
Это означает, что система преуспевает не путем произвольного тестирования экзотических идей, а благодаря улучшению набора проверенных методов. По сути, это очень похоже на методологию человеческих ученых.
Результаты
Одна из лучших открытых AI-архитектур, PathGateFusionNet, достигла в среднем 48,51 баллов во всех тестах. Для сравнения, MAMBA2 отметил 47,84, а закрытый Deltanet, разработанный человеком — 47,32. Другим поколением является ContentSharProuter, который достиг 48,34.
Учитывая отдельные тесты, PathgateFusionNet достиг 60,58 на Boolq, в то время как закрытый Deltanet достиг 60,12. Adaptiventropyrouter в версии с 340 миллионами параметров достигли результата 44,31 тестов, что на 2,21 балла выше, чем закрытая Deltanet (42,10).
И так это почти во всем; Улучшения наблюдаются во всем спектре задач.
И самое интересное- где система рисует свои идеи? Есть только 3 источника:
- Познание — знания, извлеченные из научной литературы;
- Анализ — выводы, сделанные вашими прошлыми экспериментами;
- Оригинальность — совершенно новые идеи.
Для всех сгенерированных архитектур 1773 года распределение выходного кода:
- 51,7% идей пришли из человеческой литературы;
- 38,2%- собственного анализа; 10,1% были оригинальными.
Но если мы только посмотрим на результаты 106 SOTA, картина меняется. Доля идей, основанных на анализе, увеличилась с 38,2%до 44,8%, в то время как доля познания немного снижается до 48,6%.
Следовательно, для достижения ощутимых результатов искусственный интеллект не может просто копировать и объединять человеческие события. Он должен проанализировать свой собственный опыт, учиться на своих собственных успехах и неудачах и синтезировать более совершенные решения.