Малоресурсный язык ломает коммерческие embedding: R@1 0,83 (LaBSE) vs 0,21 (OpenAI) на армянском EPG

Малоресурсный язык ломает коммерческие embedding: R@1 0,83 (LaBSE) vs 0,21 (OpenAI) на армянском EPG

Платные модели embedding не гарантируют качество на малоресурсных языках. На задаче кроссязыкового сопоставления EPG-заголовков (EN/RU/HY) бесплатная LaBSE набирает R@1 = 0,83, а OpenAI text-embedding-3-large -- 0,21. Протестировано 19 моделей, код и данные открыты. Читать далее

10 марта 2026, вторник 7:15 Оставить комментарий Источник

Похожие материалы

Восстанавливаем предложения из эмбеддингов LaBSE

На прошлой неделе меня дважды спрашивали, как восстановить текст предложения из его LaBSE эмбеддинга. Я дважды отвечал, что никак. Но на самом деле, конечно, можно обучить декодер генерировать текст по его эмбеддингу. Зачем? Например, чтобы переводить с 100 языков на русский, перефразировать предложения, модифицировать их смысл или стиль. Модель для восстановления предложений из эмбеддингов опубликована как cointegrated/rut5-base-labse-decoder, а подробности – под катом. Читать далее

19 июля 2022, вторник 10:01 Источник
«В чем сила?» — ищем ответ среди афоризмов. Сравнение 6 моделей для векторного поиска и так ли хорош OpenAi Large

Сравниваем между собой качество 6 различных токенайзеров, включая новейший OpenAi Large|Small и E5 от Microsoft на задаче векторного поиска:В чем сила? Среди сборника афоризмов.text-embedding-ada-002 text-embedding-3-largetext-embedding-3-smallintfloat/multilingual-e5-largeai-forever/ruBert-largeai-forever/sbert_large_mt_nlu_ruP.S. Бонусом сравнение как влияет токенайзер на качество задачи по классификации текста (30 классов). Читать далее

5 мая 2024, воскресенье 20:08 Источник
Представители Дагестана примут участие в Первом Российско-армянском форуме

Начальник отдела по работе со студенческой и трудящейся молодежью министерства по делам молодежи Дагестана Магомед Хатипов и член Общественной палаты республики Магомед Курбанов примут участие в Первом Российско-армянском форуме, который пройдет с 12 по 14 февраля в Ереване, сообщили РИА «Дагестан» в Минмолодежи Дагестана. Организаторами данного форума выступает Федеральное агентство по делам молодежи РФ, министерство […]

11 февраля 2015, среда 20:20 Источник

Малоресурсный язык ломает коммерческие embedding: R@1 0,83 (LaBSE) vs 0,21 (OpenAI) на армянском EPG

Комментарии

Похожие материалы

Восстанавливаем предложения из эмбеддингов LaBSE

«В чем сила?» — ищем ответ среди афоризмов. Сравнение 6 моделей для векторного поиска и так ли хорош OpenAi Large

Представители Дагестана примут участие в Первом Российско-армянском форуме