Как я обошел современные GPT модели с помощью GPT2-small на задачах рассуждения

Как я обошел современные GPT модели с помощью GPT2-small на задачах рассуждения

Не так давно я уже писал статью по такому необычному явлению, как гроккинг - отложенная генерализация. Если долго тренировать модель на наборе данных, то тестовая точность достигнет 100% и модель станет безошибочно решать задачу. Звучит круто! Но вот проблема - никто до сих пор не мог применить гроккинг на задачах из реального мира, а мы это сделали и сейчас публикуемся на крупнейшей МЛ конференции. Если интересно, как мы этого достигли, то прошу под кат. Читать далее

6 мая 2025, вторник 11:13 Оставить комментарий Источник

Похожие материалы

GPT‑4.1 глазами веб‑разработчика: возможности, интеграция и примеры

В апреле 2025 года OpenAI представила серию моделей GPT‑4.1 – сразу три версии: GPT‑4.1 (полноразмерная), GPT‑4.1 mini и GPT‑4.1 nano. Все они значительно превосходят предшественников (GPT‑4.0, также называемый GPT‑4o, и GPT‑4o mini) по качеству кодирования, следованию инструкциям и работе с…

15 апреля 2025, вторник 11:29 Источник
[Перевод] От GPT-2 к gpt-oss: анализ достижений архитектуры

???? ОписаниеНа этой неделе разбираем релиз GPT-OSS — первых полностью открытых моделей OpenAI с момента GPT-2 в 2019 году. Две модели: gpt-oss-20b и gpt-oss-120b представляют собой современные LLM с архитектурой MoE (Mixture of Experts), оптимизированные для рассуждений и способные работать на одном GPU благодаря квантованию MXFP4. Читать далее

5 октября 2025, воскресенье 7:41 Источник
Дообучаем языковую модель GPT2 с помощью Torch

Дообучаем языковую модель GPT2 с помощью TorchДоброго времени суток, в этой статье я хочу поговорить о дообучения языковых моделей. В интернете уже много информации на эту тему, но большинство подобных статей затрагивают ее поверхностно. Сегодня я попробую разобраться в этом подробнее. Читать далее

17 ноября 2024, воскресенье 23:25 Источник

Как я обошел современные GPT модели с помощью GPT2-small на задачах рассуждения

Комментарии

Похожие материалы

GPT‑4.1 глазами веб‑разработчика: возможности, интеграция и примеры

[Перевод] От GPT-2 к gpt-oss: анализ достижений архитектуры

Дообучаем языковую модель GPT2 с помощью Torch