Чатботы и большие языковые модели, стоящие за ними, находятся в общественном пространстве более двух лет. И у них уже есть проблема, которую необходимо срочно решить. Неизвестно, но человеческие знания и впоследствии оцифрованы с тысячелетиями, заканчиваются для моделей LLM. И необходимость обучения на основе синтетических данных — т.е. Те, кто не генерируется человеком, увеличиваются. И, может быть, они уже обучены таким синтетическим данным?
CopyLeaks проводят исследование, которое указывает на то, что различные услуги искусственного интеллекта, такие как DeepSeek, Catgpt, Claude и другие. У них есть свой специфический «отпечаток», который можно найти. Так же, как вы можете различить, что может быть написан ваш любимый писатель и текст от другого автора. Например, изучение публикации показало, что результаты, приведенные DeepSeek-R1, подозрительно похожи на тех, кто производит CHATGPT.
Расшифрует, в свою очередь, добавьте, что синтетические данные не являются чем -то новым. Они использовались в практических целях с 1960 -х годов в областях, таких как статистика. Эти синтетические данные создают набор искусственных информационных блоков, которые имитируют информацию, поступающую из реального мира. Но эксперты предупреждают, что использование их несет в себе риски.
В конце прошлого года реальные данные о том, что модели Google Sundar Pichai также обучены прекратить реальные данные.
«В нынешнем состоянии моделей компании, которые находятся на вершине, учитываются на пальцах. Но я думаю, что мы все уже работаем над нашей следующей версией. И этот прогресс будет трудным », — говорит New York Times в декабре. И не столько доступных данных — это проблема, сколько их доступность.
«Вы либо ищете больше, либо сфабрикаете тех, кто у вас есть», — говорит профессор Мюриэль Мидард из MIT. Это ограничение является причиной необходимости синтетических данных. Ник Санчес из Druid AI добавляет к публикации, что с текущими политиками использования содержания и других ограничений синтетические данные уже являются необходимостью. Мало того, что они облегчают работу специалистов, они также предотвращают любые возможные юридические головные боли.
«Это не идеальное решение, поскольку оно может представлять предвзятые перспективы. Как в информации, поступающей из реального мира. Но потенциальные проблемы с зарезервированными правами, конфиденциальностью и согласием на использование будут накапливаться с течением времени », — убежден Санчес. И риски здесь могут быть великолепными. Особенно, когда речь идет об использовании синтетических данных о критически важных приложениях. Санчес приводит пример систем обнаружения мошенничества. Модели могут быть преднамеренно вводятся в заблуждение при обучении, чтобы игнорировать определенные мошеннические практики.