Как обмануть LLM: обход защиты при помощи состязательных суффиксов. Часть 1

Как обмануть LLM: обход защиты при помощи состязательных суффиксов. Часть 1

Что будет, если к опасному запросу в LLM приписать специально подобранную строку токенов? Вместо отказа модель может послушно сгенерирует подробный ответ на запрещённую тему — например, как ограбить магазин. Именно так работают состязательные суффиксы: они заставляют LLM игнорировать ограничения и отвечать там, где она должна сказать «опасно». Читать далее

1 октября 2025, среда 9:00 Оставить комментарий Источник

Похожие материалы

Как обмануть LLM: обход защиты при помощи AutoDAN. Часть 2

В прошлой части мы разобрались, что такое состязательные суффиксы и почему они так легко ломают модели. Но этими суффиксами атаки не ограничиваются. Им на смену пришёл AutoDAN — наследник состязательных суффиксов и популярного jailbreak-метода DAN (Do Anything Now). Разберёмся, чем он отличается от GCG-алгоритма, посмотрим на практические примеры атак и обсудим, как защищаться и тестировать модели. Читать далее

2 октября 2025, четверг 9:00 Источник
3 метода состязательных атак на глубокие нейронные сети: как обмануть ИИ

Состязательные атаки используют уязвимости глубоких нейронных сетей (DNN), внося минимальные изменения во входные данные, чтобы заставить модель ошибаться. Они часто незаметны для человека, но могут полностью изменить результат работы модели. В этой статье рассмотрим три популярных метода состязательных атак. Читать далее

16 июня 2025, понедельник 13:35 Источник
Изучаем Adversarial Tactics, Techniques & Common Knowledge (ATT@CK). Часть 5

Часть 5. Обход защиты (Defense Evasion) Предыдущие части: Часть 1. Получение первоначального доступа Часть 2. Выполнение Часть 3. Закрепление Часть 4. Повышение привилегий В разделе «Обход защиты» описываются техники, с помощью которых злоумышленник может скрыть вредоносную активность и…

12 декабря 2018, среда 11:14 Источник

Как обмануть LLM: обход защиты при помощи состязательных суффиксов. Часть 1

Комментарии

Похожие материалы

Как обмануть LLM: обход защиты при помощи AutoDAN. Часть 2

3 метода состязательных атак на глубокие нейронные сети: как обмануть ИИ

Изучаем Adversarial Tactics, Techniques & Common Knowledge (ATT@CK). Часть 5