Компания OpenAI, известная разработкой топовых языковых моделей, сделала важный шаг навстречу открытому сообществу, представив две передовые open-source модели — GPT-OSS-120b и GPT-OSS-20b. Этот релиз знаменует возвращение компании к изначальной идее открытого распространения своих технологий…
???? ОписаниеНа этой неделе разбираем релиз GPT-OSS — первых полностью открытых моделей OpenAI с момента GPT-2 в 2019 году. Две модели: gpt-oss-20b и gpt-oss-120b представляют собой современные LLM с архитектурой MoE (Mixture of Experts), оптимизированные для рассуждений и способные работать на одном GPU благодаря квантованию MXFP4. Читать далее
GPT-OSS - тесты на реальном железе: производительность моделей 20B и 120B на RTX 4090, RTX 5090 и H100. Реальные метрики TPS, сравнение скорости генерации и практические выводы о том, какую модель выбрать для локального использования. Читать далее
У меня возникла идея проверить насколько различается скорость инференса LLM моделей не только в сравнении CPU и GPU, но и между младшими моделями со старшими при обработке без использования GPU. Для сравнения я выбрал модель gpt-oss:20b (размер модели 14Гб) и gpt-oss:120b (размер модели 65Гб). Запустил тест моделей я на компьютере с процессором Intel Core I9 14900K и 192Гб оперативной памяти. Читать далее