DeepEval - фреймворк для оценки работы AI с открытым исходным кодом.Содержит в себе множество метрик и бенчмарков для оценки качества работы AI моделей, а также предоставляет инструменты для аналитики изменений качества работы в течение разных периодов времени.В предыдущей статье мы уже частично осветили имеющиеся у DeepEval метрики (метрики для оценки RAG).В этой статье постараемся объяснить, какой еще функционал предлагается DeepEval для работы с AI. Читать далее
Тестирование сложных систем, таких как LlamaIndex Workflow, включающих несколько шагов, извлечение данных и генерацию текста с помощью LLM, является нетривиальной задачей. Стандартные методы тестирования не всегда могут оценить семантическое качество и релевантность генерируемых…
В этой статье рассмотрим мощный фреймворк для работы с большими языковыми моделями LlamaIndex: узнаем, как настроить и использовать LlamaIndex, и увидим его в действии на примере поиска ответа в заданном тексте. Читать далее
В этой статье я расскажу о способе написания тестов для LLM-приложений с использованием инструмента DeepEval. Рассмотрены базовые концепции данного инструмента, а также приведен пример его использования на реальном приложении c RAG. Будет теория и много примеров на Python. ???? Начинаем ????