Wikidata перемещается в векторный поиск: как это изменит обработку информации о системах искусственного интеллекта

Новый стандартный проект wikidata Enceding Antriding положит конец вымышленным фактам чат -ботов.

Wikimedia Deutschland представила новый проект для облегчения систем искусственного интеллекта при использовании данных Википедии и связанных с ней платформ.

Система называется Wikidata Enceding Project (Проект обучения данных Wikidanne). Он основан на Векторный семантический поискЭто позволяет компьютерам лучше понять значения слов и их отношения. Технология охватывает почти 120 миллионов записей и делает информацию более гибкой и более точной.

Одним из ключевых элементов является поддержание Протокол контекста модели (MCP) — Стандарт, который позволяет моделям напрямую взаимодействовать с базами знаний и обрабатывать запросы естественного языка.

Проект был реализован Wikimedia Germany в сотрудничестве с Jina.ai (поиск через нейронные сети) и DataStax (структурированные данные обучения, часть IBM).

Ранее Wikidata предоставляла машинную информацию, но спрос был ограничен ключевыми словами и специализированными запросами SPARQL. Новый формат фокусируется на современных системах расширенного спроса (RAG), которые используют внешние источники, что повышает точность ответов и позволяет использовать википедиа -инспективные редакторы.

Данные в созданном проекте структурированы для обеспечения семантического контекста. Например, когда вы просите слово «ученый», список известных ученых, переводы на разные языки, изображения из библиотек Wikimedia и связанные с ними термины, такие как «исследователь» или «ученый», можно получить.

База данных уже общедоступна на Toolforge.

Менеджер проекта Wikidata AI Филип Сааде сказал, что инициатива подчеркивает независимость Викимедии.

«Этот старт показывает, что не обязательно, что мощный искусственный интеллект контролируется только несколькими компаниями. Он может быть открыт, совместный и создан для всех», — сказал он.

Похожие записи