В первой части мы разобрали теорию text‑to‑SQL: как LLM заменяют разработчиков, почему RAG и CoT спасают от галлюцинаций и зачем Scale AI дообучает ChatGPT-4. Но теория неполна без практики! В этом материале — жёсткое тестирование моделей (ChatGPT o3-mini‑high, ChatGPT 4.1, Claude Sonnet 4, ChatGPT o3,…
Одной из главных моделей серии Gemini 1.5 является Gemini 1.5 Pro. Это новейшая версия больших языковых моделей (LLM) от Google, которая вызвала значительный интерес благодаря своим усовершенствованным возможностям. Она особенно эффективна при работе с задачами, требующими учета длинного…
Китайский стартап DeepSeek выпустил в открытый доступ свою большую языковую модель DeepSeek-R1, которая, как заявлено, лучше аналогов от OpenAI, а обучение этой модели было гораздо дешевле. Кроме того, DeepSeek действительно открытая и ее можно запустить локально. В этой статье вас ждет действительно простая инструкция по развертыванию локальной модели DeepSeek. А также короткое, но разнообразное интервью на русском языке с DeepSeek-R1, ее локальной копией, ChatGPT-4o и ChatGPT-o1. Читать дальше →
Когда мы говорим о бенчмаркинге LLM в какой-то предметной области, то имеем в виду две разные концепции: бенчмарки моделей LLM и бенчмарки систем LLM. Бенчмаркинг моделей LLM заключается в сравнении базовых моделей общего назначения (например, GPT, Mistral, Llama, Gemini, Claude и так далее). Нам не…