Платные модели embedding не гарантируют качество на малоресурсных языках. На задаче кроссязыкового сопоставления EPG-заголовков (EN/RU/HY) бесплатная LaBSE набирает R@1 = 0,83, а OpenAI text-embedding-3-large -- 0,21. Протестировано 19 моделей, код и данные открыты. Читать далее
На прошлой неделе меня дважды спрашивали, как восстановить текст предложения из его LaBSE эмбеддинга. Я дважды отвечал, что никак. Но на самом деле, конечно, можно обучить декодер генерировать текст по его эмбеддингу. Зачем? Например, чтобы переводить с 100 языков на русский, перефразировать предложения, модифицировать их смысл или стиль. Модель для восстановления предложений из эмбеддингов опубликована как cointegrated/rut5-base-labse-decoder, а подробности – под катом. Читать далее
Сравниваем между собой качество 6 различных токенайзеров, включая новейший OpenAi Large|Small и E5 от Microsoft на задаче векторного поиска:В чем сила? Среди сборника афоризмов.text-embedding-ada-002 text-embedding-3-largetext-embedding-3-smallintfloat/multilingual-e5-largeai-forever/ruBert-largeai-forever/sbert_large_mt_nlu_ruP.S. Бонусом сравнение как влияет токенайзер на качество задачи по классификации текста (30 классов). Читать далее
Начальник отдела по работе со студенческой и трудящейся молодежью министерства по делам молодежи Дагестана Магомед Хатипов и член Общественной палаты республики Магомед Курбанов примут участие в Первом Российско-армянском форуме, который пройдет с 12 по 14 февраля в Ереване, сообщили РИА «Дагестан» в Минмолодежи Дагестана. Организаторами данного форума выступает Федеральное агентство по делам молодежи РФ, министерство […]