Уже больше года назад у меня зародилась идея создать свою архитектуру языковой модели. Традиционные модели, "думающие" на уровне токенов мне решительно не нравились. Колоссальный вычислительный бюджет на то, чтобы просто предсказать один токен. Логичным мне казалось оторвать…
Хабр, привет! Это Just AI, и мы создали JustGPT – третью большую языковую модель, сопоставимую по качеству ответов с известными LLM для русского языка (GigaChat, YandexGPT). Наша история – про работу над моделью, ее обучение и тестирование по своей методике. Но в конечном итоге она о том, как получить свою LLM на русском языке без космических мощностей и огромных команд. Читать далее
Как научить языковую модель не только «думать», но и «действовать»? В этой статье я расскажу о Re-Act (Reason + Act) — подходе, который объединяет логические рассуждения и вызовы внешних инструментов, превращая обычную языковую модель в гибкого и эффективного помощника при решении самых разных задач. Читать далее
Дообучаем языковую модель GPT2 с помощью TorchДоброго времени суток, в этой статье я хочу поговорить о дообучения языковых моделей. В интернете уже много информации на эту тему, но большинство подобных статей затрагивают ее поверхностно. Сегодня я попробую разобраться в этом подробнее. Читать далее