[Перевод] Мы обнаружили в GPT-2 нейрон конкретного токена

[Перевод] Мы обнаружили в GPT-2 нейрон конкретного токена

Мы начали с вопроса: откуда GPT-2 знает, когда использовать слово an, а не a? Выбор зависит от того, начинается ли следующее за ним слово с гласной, однако GPT-2 может прогнозировать только одно слово за раз. У нас по-прежнему нет полного ответа, однако мы нашли нейрон MLP в GPT-2 Large, который…

9 марта 2023, четверг 11:54 Оставить комментарий Источник

Похожие материалы

GPT‑4.1 глазами веб‑разработчика: возможности, интеграция и примеры

В апреле 2025 года OpenAI представила серию моделей GPT‑4.1 – сразу три версии: GPT‑4.1 (полноразмерная), GPT‑4.1 mini и GPT‑4.1 nano. Все они значительно превосходят предшественников (GPT‑4.0, также называемый GPT‑4o, и GPT‑4o mini) по качеству кодирования, следованию инструкциям и работе с…

15 апреля 2025, вторник 11:29 Источник
[Перевод] Нано-нейрон — 7 простых JavaScript функций, показывающих, как машина может «учиться»

Нано-нейрон — это упрощенная версия нейрона из концепции нейронной сети. Нано-нейрон выполняет простейшую задачу и натренирован на конвертацию температуры из градусов Целься в градусы Фаренгейта. Код NanoNeuron.js состоит из 7 простых JavaScript функций, затрагивающих обучение,…

9 декабря 2019, понедельник 12:22 Источник
[Перевод] От GPT-2 к gpt-oss: анализ достижений архитектуры

???? ОписаниеНа этой неделе разбираем релиз GPT-OSS — первых полностью открытых моделей OpenAI с момента GPT-2 в 2019 году. Две модели: gpt-oss-20b и gpt-oss-120b представляют собой современные LLM с архитектурой MoE (Mixture of Experts), оптимизированные для рассуждений и способные работать на одном GPU благодаря квантованию MXFP4. Читать далее

5 октября 2025, воскресенье 7:41 Источник

[Перевод] Мы обнаружили в GPT-2 нейрон конкретного токена

Комментарии

Похожие материалы

GPT‑4.1 глазами веб‑разработчика: возможности, интеграция и примеры

[Перевод] Нано-нейрон — 7 простых JavaScript функций, показывающих, как машина может «учиться»

[Перевод] От GPT-2 к gpt-oss: анализ достижений архитектуры