Внимание в трансформерах не имеет памяти между шагами, что ведет к нестабильным градиентам. Решение Momentum Attention, где текущие Value векторы смешиваются с предыдущими через экспоненциальное скользящее среднее. Этот подход добавляет инерцию, стабилизируя фокус модели. Внутри разбор механики, корректный код на PyTorch и анализ трейд оффов Читать далее
Еще недавно поиск в Google или Яндекс был главным инструментом инженера. Сегодня все изменилось: AI-помощники вроде ChatGPT, Gemini или Claude, понимающие запросы на естественном языке, кардинально меняют подход к работе. Однако их использование упирается в серьезные преграды: вопросы…
Windows 11 — современная и красивая операционка, но порой она может работать медленнее, чем хотелось бы. Особенно это заметно на старых или менее мощных ПК. Хорошая новость в том, что существует несколько простых и эффективных способов улучшить производительность системы, сделать…
MCP без воды и шаблонного кода на практике: разбираем протокол, поднимаем сервер, тестируем через Inspector и учим LLM торговать через Finam API. Разберёмся, когда MCP выгоднее «обычных функций», как изолировать интеграции и упростить отладку инструментов. Читать далее
Присматриваемся к Расту, как возможному кандидату на реализацию задачи Card DOM. Рассматриваем, как он поддерживает полиморфные структуры данных, в частности, приведение типов между трейтами. Читать далее
Привет, Хабр!Четыре года назад, еще в институте, одним из моих первых серьезных проектов была простая LSTM-модель для прогноза погоды. Недавно, пересматривая старые наработки, я задался вопросом: насколько дальше можно зайти, применив накопленный за эти годы опыт и современные…
Производителям чипов приходится постоянно решать одну и ту же задачу — находить баланс между скоростью и энергоэффективностью. Intel, судя по последним анонсам, попыталась сделать это в серии Panther Lake. В ней компания собрала воедино успешные элементы предыдущих проектов. Так что…
Всем привет! Меня зовут Анастасия Рысьмятова, я руковожу юнитом LLM в Авито.В этой статье я расскажу, как мы с командой создали и адаптировали нашу большую языковую модель A-vibe: зачем решили развивать собственную LLM, как построили токенизатор, собрали датасеты, провели SFT и RL и что получили в итоге. Поделюсь основными экспериментами и покажу наши результаты. Читать далее
Когда в России было мало своего производства и не было проблем с логистикой, почти всё заказывали ложементы за три копейки в Китае вместе с товарами. Сейчас ситуация изменилась. Цены у китайцев выросли, логистика подорожала и возить воздух в ложементах, как раньше, стало…
Бесплатная проверка товарного знака за 5 минут не даёт полную картину. Когда (и как?) можно проверить самому и когда нужен специалист — чтобы не потерять бюджеты на 10 месяцев продвижения бренда и вынужденный ребрендинг. Читать далее