Обзор посвящен исследованию, на тему «сверхвеса» (super weights) в больших языковых моделях (LLM). Авторы обнаружили, что очень небольшое количество параметров (вплоть до одного скаляра!) в LLM играет непропорционально важную роль в их способности генерировать…
Прошло около полугода после последней моей статьи о перспективах развития больших языковых моделей. Чтобы не утомлять долгим чтением, её краткое резюме:Критика современных больших языковых моделей (БЯМ): они статичны, неэффективны в вычислениях и обучении, что ведет индустрию…
Данная статья написана, чтобы помочь рядовым пользователям правильно использовать ChatGPT. В ней раскрываются тонкости устройства больших языковых моделей. А если вы разбираетесь в том, как всё работает, то не тратьте время и листайте ленту дальше!Написал я эту статью потому, что сам делал ошибки и не понимал, что не так, получая неудовлетворительный результат. Главным образом, я хочу рассказать, что такое размер контекста, на что он влияет и как с этим жить. Читать далее
При разработке чат-ботов на основе больших языковых моделей (Large Language Model, LLM) всё чаще становится актуальной проблема «утечки» конфиденциальных данных. Причём она сопряжена со множеством значимых негативных последствий, как для клиентов, так и для бизнеса. Читать далее