Adversarial suffixes или можно ли получить ответ на любой вопрос от LLM?

Adversarial suffixes или можно ли получить ответ на любой вопрос от LLM?

Мы уже писали про проблемы безопасности в языковых моделях и сегодня мы поговорим о состязательных суффиксах или как их ещё называют Adversarial suffixes. Такие суффиксы - это один из инструментов для получения всего, что вы хотите, добавляя их в запросы к LLM , они помогают получить ответ на любой ваш сокровенный вопрос (о религии, политике, опасных аспектах социальных медиа и многом другом). Давайте глубже разберемся в этом...

5 февраля 2024, понедельник 12:00 Оставить комментарий Источник

Похожие материалы

Лучший промпт для LLM. Бессмысленный поиск

В общем и целом LLM глупы. Я прошу у них написать прекрасный текст, рабочий код, решить задачу, подобрать ссылки, подготовить ответ, объяснить как починить холодильник, раскритиковать не нравящуюся мне статью. Вполне понятные и простые просьбы. В ответ приходит какая-то ерунда. Ответ неполон, ошибочен и, в целом, совершенно меня не устраивает. Виновата LLM или мой промпт?Давайте рассмотрим этот вопрос подробнее. Читать далее

25 апреля 2026, суббота 12:05 Источник
Состязательные атаки (adversarial attacks) в соревновании Machines Can See 2018

Или как я оказался в команде победителей соревнования Machines Can See 2018 adversarial competition. Суть любых состязательных атак на примере. Так уж получилось, что мне довелось поучаствовать в соревновании Machines Can See 2018. Я присоединился к соревнованию я поздновато (примерно за неделю до…

10 июня 2018, воскресенье 18:33 Источник
Автоэнкодеры в Keras, Часть 5: GAN(Generative Adversarial Networks) и tensorflow

Содержание Часть 1: Введение Часть 2: Manifold learning и скрытые (latent) переменные Часть 3: Вариационные автоэнкодеры (VAE) Часть 4: Conditional VAE Часть 5: GAN (Generative Adversarial Networks) и tensorflow Часть 6: VAE + GAN (Из-за вчерашнего бага с перезалитыми картинками на хабрасторейдж, случившегося не по моей вине, вчера…

30 июня 2017, пятница 14:30 Источник

Adversarial suffixes или можно ли получить ответ на любой вопрос от LLM?

Комментарии

Похожие материалы

Лучший промпт для LLM. Бессмысленный поиск

Состязательные атаки (adversarial attacks) в соревновании Machines Can See 2018

Автоэнкодеры в Keras, Часть 5: GAN(Generative Adversarial Networks) и tensorflow