Я обучил небольшую языковую модель, которая отвечает на дореформенном русском как человек из XIX века. Рассказываю, как подготовил данные, собрал синтетический корпус, обучил tiny-LLM и опубликовал её в виде чат-бота. Читать далѣе
Я хотел решить простую инженерную задачу: отсеять «шум» в комментариях на код-ревью. Обучил модель на 10 000 примеров, получил точность 87%. Потом открыл список ошибок. Оказалось, модель научилась предсказывать увольнения сотрудников за два месяца до того, как они принесут заявление. Рассказываю, как «пустые» комментарии выдают выгорание и почему данные иногда знают о нас больше, чем мы сами. Читать далее
Люди всегда хотели разговаривать с животными. Будь то царь Соломон, Франциск Ассизский или Маугли - почти в каждой человеческой культуре существуют мифы о людях, умеющих разговаривать с животными. Во всём мире дети стремятся понять своих домашних питомцев, а родители пытаются…
TL;DR. Из интереса обучил собственный русский RAG‑сплиттер — захотелось проверить, можно ли сделать context‑aware‑нарезку русских документов лучше готовых чанкеров.Я взял идею датской context-aware-splitter, пересобрал её под русский на базе T-lite-it-2.1 и изменил главное: модель возвращает индексы границ, а не переписанный текст. Хост потом режет оригинал по этим индексам.У index‑output оказалось три практических плюса: Читать далее