GPT-4 превосходит среднестатистического человека с точки зрения креативности, но отстает от верхних 10%

Масштабное исследование человеческого творчества и крупных языковых моделей было опубликовано в журнале Nature Human Behavior. Исследователи из Университета Гонконга и Северо-Западного университета сравнили 9 198 человек с восемью степенью магистра права в тесте на дивергентное мышление — всего 215 542 запуска моделей ИИ. Результаты были неоднозначными: GPT-4 Turbo набрал 81,78 балла, превзойдя средний балл человека (78–80 баллов), Claude 3.5 Sonnet набрал 80,01, а китайский Ernie 4.0 показал худшие результаты — 76,17 балла. Однако когда исследователи сравнили 10% лучших людей с 10% лучших ответов GPT-4 Turbo, люди вышли победителями со статистической значимостью (p <0,001).

Для оценки использовалось задание «Дивергентные ассоциации» — тест, в котором называются 10 существительных, максимально отличающихся друг от друга. Креативность измеряется алгоритмически по смысловому расстоянию между словами, без субъективных оценок жюри. Это очень важно: впервые ни люди, ни студенты-юристы не оценивают друг друга. Основная разница оказывается не в средних баллах, а в распределении. У людей дисперсия значительно выше — есть как бедные, так и выбросы, — в то время как модели дают стабильное среднее значение. Кроме того, люди генерировали значительно больше уникальных слов: между сеансами модели повторяли одни и те же ответы, такие как «счастье» и «свобода».

Авторы вводят термин «творческая мимикрия«, чтобы описать, как LLM имитирует оригинальность. Модели используют две стратегии: извлечение редких слов из корпуса или использование температурного параметра для введения случайности. Однако это не понимание смысла, а скорее статистическая манипуляция. Пример Клода показателен: при низкой температуре модель выдавала слово «зефир» 485 раз из 750 запусков, но при высокой температуре она выдавала слово «свобода» только 38 раз. Модели GPT изначально улучшают свои результаты с повышением температуры, но затем начинаются галлюцинации, порождающие бессмыслицу или искаженные слова.

Отдельный эксперимент демонстрирует несостоятельность популярных техник подсказки. Инструкция»думай как Стив Джобс«не улучшило творческие способности — более того, баллы упали. Авторы объясняют, что модель сужает словарный запас до области, связанной с личностью, вместо того, чтобы охватывать ее «гениальность». Результаты еще хуже с демографическими признаками: подсказка «думай как женщина«снизил результаты»,думай как пожилой человек» увеличил их (связано с увеличением словарного запаса) и «думай как черный человексущественно их снижает, что авторы напрямую связывают с заложенными в модели социальными стереотипами.

Практический вывод исследователей: LLM подходят в качестве отправной точки для рутинных творческих задач и помогают быстро достичь среднего уровня. Однако прорывные идеи по-прежнему требуют людей.

`, // — БАННЕР 2 (Новости Google) — `

`, // — БАННЕР 3 (Viber) — `

` ); const randomIndex = Math.floor(Math.random() * Banners.length); document.getElementById(‘kaldata-random-banner’).innerHTML = баннеры(randomIndex); })();

Комментируйте статью на нашем форуме. Чтобы первыми узнавать самое важное, поставьте лайк нашей странице в Facebook и подпишитесь на нас в Google News, TikTok, Telegram и Viber или загрузите приложение по адресу Калдата.com для Android, iOS и Huawei!

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх