Всем привет! На связи Дмитрий Берестнев, Chief Data Scientist в HiFi-стриминге Звук. Сегодня я расскажу о том, как мы реализовали систему подбора аудиокниг и зачем это вообще было сделано. В статье мы фокусируемся на принципе рекомендации похожих книг (а подходы для авторов в нашем случае были сделаны аналогично). Читать далее
Сдерживает ли токенизация потенциал больших языковых моделей? Несмотря на свою популярность, этот подход имеет ряд ограничений, которые становятся всё более заметными с развитием LLM. В статье мы разберём, почему токенизация является костылём, какие проблемы она создаёт и какие альтернативные методы предлагают исследователи для их решения. От байтовых моделей до работы с концептами — как пытаются улучшить ситуацию и что это может означать для будущего языковых моделей. Читать далее
Недавно я увидел 1TB в статистике книг Audiobookshelf и решил отпраздновать это, рассказав людям как крут Audiobookshelf. Audiobookshelf - приложение, которое ставится на свой компьютер, сервер аудиокниг. Это каталог ваших аудиокниг. Однако, зачем вообще аудиокниги, когда есть нормальные, текстовые? Если есть возможность, то... Читать далее
Прошло около полугода после последней моей статьи о перспективах развития больших языковых моделей. Чтобы не утомлять долгим чтением, её краткое резюме:Критика современных больших языковых моделей (БЯМ): они статичны, неэффективны в вычислениях и обучении, что ведет индустрию…