Привет! Вчера вышла отличная статья от Себастьяна Рашки, которая детально разбирает основные способы оценки LLM-моделей. Глобально их можно разделить на 4 категории: оценка по бенчмаркам, использование верификаторов, лидерборды и LLM-as-a-judge. Для каждого метода есть описание и код…
Независимо от того, улучшаете ли вы точность модели путем дообучения или улучшаете контекстную релевантность системы генерации с дополненной выборкой (RAG), понимание того, как разрабатывать и выбирать подходящий набор метрик оценки LLM для вашего варианта использования,…
Зачем использовать бенчмарки для оценки LLM? Бенчмарки LLM помогают оценивать точность больших языковых моделей, обеспечивая стандартизированную процедуру измерения метрик выполнения различных задач. Бенчмарки содержат все структуры и данные, необходимые для оценки LLM, в том…
Привет, Хабр! Меня зовут Ирина, я аналитик по информационной безопасности в Авито. В этой статье я делюсь нашим опытом и моими личными впечатлениями о выстраивании процесса оценки и управлении рисками информационной безопасности в Авито. Рассказываю, что понадобилось для запуска и поддержки процесса оценки рисков, в чем польза такой оценки и как здесь не отставать от трендов. Мой рассказ будет интересен не только ИБ-аналитикам, риск-менеджерам, но и всем, кто интересуется темой оценки рисков. Читать далее