Дообучение больших языковых моделей на кастомных датасетах делает модели гораздо сообразительнее. Есть история успеха датасета alpaca. Он творит чудеса с моделями, которые сначала если и умели что-то делать, то делали это очень плохо. Мы решили понять, как это делается, а главное - какие проблемы есть на этом пути и могут ли новички вроде нас разобраться в этом. История взлетов и падений - под катом. Читать далее
Сдерживает ли токенизация потенциал больших языковых моделей? Несмотря на свою популярность, этот подход имеет ряд ограничений, которые становятся всё более заметными с развитием LLM. В статье мы разберём, почему токенизация является костылём, какие проблемы она создаёт и какие альтернативные методы предлагают исследователи для их решения. От байтовых моделей до работы с концептами — как пытаются улучшить ситуацию и что это может означать для будущего языковых моделей. Читать далее
Откройте для себя OWASP Top 10 для LLM и GenAI и изучите основные стратегии защиты ваших моделей и приложений искусственного интеллекта. Появление больших языковых моделей (LLMs) и технологий генеративного искусственного интеллекта (GenAI), таких как GPT-4, произвело революцию в различных…
Маленькая ремарка С появлением больших языковых моделей обществу был брошен вызов. Первые проблемы, с которыми пришлось столкнуться в области LLM, были связаны с тем, что модели могут неправильно трактовать информацию, давать губительные советы в убедительном тоне, говорить, как сделать бомбу, или вообще оскорблять определенные расы. Естественно, после такого поведения моделей последовало несколько неприятных событий. Читать дальше →