TL;DR. Из интереса обучил собственный русский RAG‑сплиттер — захотелось проверить, можно ли сделать context‑aware‑нарезку русских документов лучше готовых чанкеров.Я взял идею датской context-aware-splitter, пересобрал её под русский на базе T-lite-it-2.1 и изменил главное: модель возвращает индексы границ, а не переписанный текст. Хост потом режет оригинал по этим индексам.У index‑output оказалось три практических плюса: Читать далее
Я обучил небольшую языковую модель, которая отвечает на дореформенном русском как человек из XIX века. Рассказываю, как подготовил данные, собрал синтетический корпус, обучил tiny-LLM и опубликовал её в виде чат-бота. Читать далѣе
Цвет – Черный, Тип – Сплиттер, Максимальный ток заряда – 5, Вес – 0.155, Глубина – 45 OptiMate o5 Цвет Черный Тип Сплиттер Максимальный ток заряда 5 Глубина 45 Вес 0.155 в наличии Цена: 990.00 ₽ КУПИТЬ
Привет, Хабр! В этот раз предлагаю разбор научной статьи DRAGOn: Designing RAG On Periodically Updated Corpus — будет полезна всем, кто интересуется RAG и хочет знать, как оценивать такие системы. Структура1. Почему RAG сложно оценивать 2. Идея DRAGOn3. Как строится бенчмарк4. Проверка качества QA 5. Проверка бенчмарка на RAG-системах6. Публичный лидерборд 7. Ограничения, проблемы и практические выводы Читать далее