Привет, Хабр! В этот раз предлагаю разбор научной статьи DRAGOn: Designing RAG On Periodically Updated Corpus — будет полезна всем, кто интересуется RAG и хочет знать, как оценивать такие системы. Структура1. Почему RAG сложно оценивать 2. Идея DRAGOn3. Как строится бенчмарк4. Проверка качества QA 5. Проверка бенчмарка на RAG-системах6. Публичный лидерборд 7. Ограничения, проблемы и практические выводы Читать далее
С появлением больших языковых моделей (LLM) стало казаться, что они умеют всё: от генерации кода до написания статей в научные журналы. Но, как только дело доходит до фактов, особенно актуальных и узкоспециализированных, начинаются проблемы. LLM — это не поисковики и не базы данных,…
Космический корабль Crew Dragon (Dragon v2) После нескольких лет переносов сроков и задержек сегодня ночью (утром по МСК) SpaceX и NASA должны всё-таки осуществить первый экспериментальный запуск нового космического корабля Crew Dragon (Dragon v2). Именно на нём SpaceX планирует в будущем осуществлять…
Продолжаю работу по обзору старых кроссплатформенных тестов оценки производительности, первая статья про целочисленный бенчмарк Dhrystone Тест разработан Гарольдом Керноу (CCTA) в 1972 году на языке Algol-60, в 1973 появляется реализация на языке Fortran, а в 1996 году появляется реализация…