В последние месяцы я всё чаще сталкиваюсь с одним и тем же выводом: внедрение LLM-систем (особенно с использованием RAG-подхода) тормозится не из-за самой модели, а из-за отсутствия качественных данных. Самое дорогое в процессе — это не запуск пайплайна, не подбор архитектуры, а подготовка структурированных, очищенных и корректных данных, пригодных для обучения или дообучения моделей. Всё чаще этот подход называют AI-Ready Data. Читать далее
В этой статье я расскажу как я смог бесплатно и без мощного железа дообучить LLaMA на диалогах с друзьями в ВК, чтобы сделать чат бота, который копирует наш стиль общения, оживляет разговор в чате и просто пишет странные и смешные вещи. В статье будет мало терминов, тут я простым языком расскажу как вы можете обучить большую языковую модель. Читать далее
Проблемы качества базы данных LLM[1] и необучаемости LLM в силу ограничения размеров контекстного окна сводятся к одной проблеме никак с LLM не связанной – оценке доверия к публикациям и их авторам вообще. Вторая проблема – LLM не умеет решать простые логические задачи легко решаемые
Гайд для самопроверки бизнес-историй перед отдачей их на ревью лиду аналитики и командеДостаточно большой опыт работы с бизнес-историями помог мне сформировать список правил для их самопроверки перед финальным показом команде. И в этой статье я хочу поделиться ими с вами. Далее