Исследователи из Samsung Electronic представили новую языковую модель искусственного интеллекта, которая опровергает принятое в отрасли правило «чем больше, тем лучше». LLM Tiny Recursive Model или TRM состоит всего из 7 000 000 параметров, но выигрывает в одном компоненте и в самых крупных моделях. Он побеждает в задачах на «рассуждение» больших моделей LLM, таких как Gemini 2.5 Pro, в сложных испытаниях, таких как решение судоку.
Компания также опубликовала полный отчет по TRM в ARXIV. Он показывает, насколько интеллектуальный дизайн может быть более эффективным, чем простое увеличение количества параметров в моделях. Модель использует процесс, называемый «рекурсивным рассуждением». Это позволяет «обдумывать» проблему циклически, проходя через нее снова и снова, чтобы улучшить ответы. Исследование и модель являются результатом работы лаборатории искусственного интеллекта Института передовых технологий Samsung в Монреале.
Исследование останавливается на конструкции TRM, которая была создана для решения логических головоломок и умственных задач. В отличие от своих старших братьев LLM, TRM не может создавать изображения, разговаривать с людьми или писать истории. Но он лучше, чем они, решает действительно сложные задачи и с большей точностью. Например, он достигает точности 87% Судоку-Экстрим. Платформа использует модели ИИ при решении множества головоломок «судоку». Он также достигает результата 85% в MAZE-HARD — задаче, в которой модель должна найти результат в сложных лабиринтах как можно быстрее. В тестах ARC-AGI-1 и Arc-AGI-2 он достигает 45% и 8% соответственно.
Во всех тестах Trm побеждает большие модели LLM. Например, ARC-AGI-2, Gemini 2.5 Pro достигает результата 4,9%, а O3-Mini-High от Openai — всего 3%. R1 R1 Anthropic PBC на Deepseek и Claude 3.7 достигли 1,3% и 0,7% соответственно. И TRM достигает этих результатов с менее чем 0,01% количества параметров больших языковых моделей.
В отдельной публикации Алексия Джолико-Мартино, один из создателей исследования, объясняет важность достигнутого. Она отметила, что с помощью TRM она и ее коллеги демонстрируют, что небольшие целевые модели могут достигать отличных результатов в специализированных, структурированных мыслительных задачах. Это может стать ценным открытием для более крупной индустрии искусственного интеллекта. Таким образом, мощные системы искусственного интеллекта могут стать более доступными. Модели с миллиардами или триллионами параметров требуют использования огромных кластеров специализированных и дорогих графических устройств. Они также могут потреблять огромное количество энергии. А это, в свою очередь, означает, что экспериментировать с ними могут лишь горстка очень богатых компаний. А небольшие модели, такие как TRM, могут запускаться на стандартном оборудовании и требуют значительно меньше энергии.

