Вы меняете системный промпт, надеетесь, что все заработало и деплоите фичу в продакшен. На следующее утро прилетает жалоба: агент выдумал дедлайн или проигнорировал важную инструкцию. Вы снова открываете IDE, правите промпт, смотрите глазами на пару примеров — «вроде стало…
На днях OpenAI опубликовали в своем блоге небольшую статью с достаточно громким названием «How evals drive the next chapter in AI for businesses». Я сделал ее перевод, чуть адаптировав для лучшей читабельности, очень уж бюрократический язык в оригинале.Статью авторы называют «руководством для…
Привет, Хабр! Меня зовут Ирина, я аналитик по информационной безопасности в Авито. В этой статье я делюсь нашим опытом и моими личными впечатлениями о выстраивании процесса оценки и управлении рисками информационной безопасности в Авито. Рассказываю, что понадобилось для запуска и поддержки процесса оценки рисков, в чем польза такой оценки и как здесь не отставать от трендов. Мой рассказ будет интересен не только ИБ-аналитикам, риск-менеджерам, но и всем, кто интересуется темой оценки рисков. Читать далее
DeepEval - фреймворк для оценки работы AI с открытым исходным кодом.Содержит в себе множество метрик и бенчмарков для оценки качества работы AI моделей, а также предоставляет инструменты для аналитики изменений качества работы в течение разных периодов времени.В предыдущей статье мы уже частично осветили имеющиеся у DeepEval метрики (метрики для оценки RAG).В этой статье постараемся объяснить, какой еще функционал предлагается DeepEval для работы с AI. Читать далее