[Перевод] Краткий обзор LLM бенчмарков

[Перевод] Краткий обзор LLM бенчмарков

Когда мы говорим о бенчмаркинге LLM в какой-то предметной области, то имеем в виду две разные концепции: бенчмарки моделей LLM и бенчмарки систем LLM. Бенчмаркинг моделей LLM заключается в сравнении базовых моделей общего назначения (например, GPT, Mistral, Llama, Gemini, Claude и так далее). Нам не…

17 октября 2024, четверг 12:15 Оставить комментарий Источник

Похожие материалы

BI в тестировании — сравнение результатов бенчмарков двух веток с помощью однофакторного ANOVA (критерий Кохрена-Кокса)

Business Intelligence (BI) находит применение в самых разных сферах, в том числе, например, при анализе результатов бенчмарков. Часто возникает задача сравнения производительности двух версий приложения на основе результатов бенчмарков (время выполнения тестов для нескольких прогонов и…

27 апреля 2025, воскресенье 17:14 Источник
Краткий обзор 9 локальных UI для LLM

На просторах интернета можно найти множество интерфейсов для LLM. Все они довольно разношерстные и обладают разным функционалом: от простых чатов до почти энтерпрайз-приложений.Я установил и опробовал 9 них (на самом деле больше, но нормальных только 9 :) В этой статье найдете их краткий обзор.Мои курсы: Разработка LLM с нуля | Алгоритмы Машинного обучения с нуля Читать далее

24 октября 2025, пятница 17:03 Источник
Проблемы с логикой у LLM и с доверием не только у LLM

Проблемы качества базы данных LLM[1] и необучаемости LLM в силу ограничения размеров контекстного окна сводятся к одной проблеме никак с LLM не связанной – оценке доверия к публикациям и их авторам вообще. Вторая проблема – LLM не умеет решать простые логические задачи легко решаемые

22 июля 2024, понедельник 4:23 Источник

[Перевод] Краткий обзор LLM бенчмарков

Комментарии

Похожие материалы

BI в тестировании — сравнение результатов бенчмарков двух веток с помощью однофакторного ANOVA (критерий Кохрена-Кокса)

Краткий обзор 9 локальных UI для LLM

Проблемы с логикой у LLM и с доверием не только у LLM