«В чем сила?» — ищем ответ среди афоризмов. Сравнение 6 моделей для векторного поиска и так ли хорош OpenAi Large

«В чем сила?» — ищем ответ среди афоризмов. Сравнение 6 моделей для векторного поиска и так ли хорош OpenAi Large

Сравниваем между собой качество 6 различных токенайзеров, включая новейший OpenAi Large|Small и E5 от Microsoft на задаче векторного поиска:В чем сила? Среди сборника афоризмов.text-embedding-ada-002 text-embedding-3-largetext-embedding-3-smallintfloat/multilingual-e5-largeai-forever/ruBert-largeai-forever/sbert_large_mt_nlu_ruP.S. Бонусом сравнение как влияет токенайзер на качество задачи по классификации текста (30 классов). Читать далее

5 мая 2024, воскресенье 20:08 Оставить комментарий Источник

Похожие материалы

Embedding — как машины понимают смысл текста

Я уверен, вы видели модели машинного обучения, которые принимают текст и предсказывают, является ли он спамом. Аналогично модель может проанализировать отзыв о фильме и определить его тональность — положительную или отрицательную, понимать что «груша» связана с «яблоком» куда

13 января 2026, вторник 9:01 Источник
Малоресурсный язык ломает коммерческие embedding: R@1 0,83 (LaBSE) vs 0,21 (OpenAI) на армянском EPG

Платные модели embedding не гарантируют качество на малоресурсных языках. На задаче кроссязыкового сопоставления EPG-заголовков (EN/RU/HY) бесплатная LaBSE набирает R@1 = 0,83, а OpenAI text-embedding-3-large -- 0,21. Протестировано 19 моделей, код и данные открыты. Читать далее

10 марта 2026, вторник 7:15 Источник
Семантический поиск vs полнотекстовый: сравниваем три embedding-модели на 10 000 категорий Ozon

Сравнил полнотекстовый поиск PostgreSQL (tsvector/tsquery + GIN-индекс) с семантическим поиском через pgvector (cosine distance) на датасете из 10 019 товарных категорий Ozon.Три embedding-модели:GigaChat EmbeddingsGigaR (Сбер, 2560-мерные векторы, API)Qwen3-Embedding-0.6B (Alibaba, 1024-мерные, локальный инференс через HF Text Embeddings Inference на…

14 марта 2026, суббота 12:40 Источник

«В чем сила?» — ищем ответ среди афоризмов. Сравнение 6 моделей для векторного поиска и так ли хорош OpenAi Large

Комментарии

Похожие материалы

Embedding — как машины понимают смысл текста

Малоресурсный язык ломает коммерческие embedding: R@1 0,83 (LaBSE) vs 0,21 (OpenAI) на армянском EPG

Семантический поиск vs полнотекстовый: сравниваем три embedding-модели на 10 000 категорий Ozon