В прошлой части мы разобрались, что такое состязательные суффиксы и почему они так легко ломают модели. Но этими суффиксами атаки не ограничиваются. Им на смену пришёл AutoDAN — наследник состязательных суффиксов и популярного jailbreak-метода DAN (Do Anything Now). Разберёмся, чем он отличается от GCG-алгоритма, посмотрим на практические примеры атак и обсудим, как защищаться и тестировать модели. Читать далее
Что будет, если к опасному запросу в LLM приписать специально подобранную строку токенов? Вместо отказа модель может послушно сгенерирует подробный ответ на запрещённую тему — например, как ограбить магазин. Именно так работают состязательные суффиксы: они заставляют LLM игнорировать ограничения и отвечать там, где она должна сказать «опасно». Читать далее
Часть 5. Обход защиты (Defense Evasion) Предыдущие части: Часть 1. Получение первоначального доступа Часть 2. Выполнение Часть 3. Закрепление Часть 4. Повышение привилегий В разделе «Обход защиты» описываются техники, с помощью которых злоумышленник может скрыть вредоносную активность и…
Комплект из 3-х книг Элеоноры Гильм: «Обмануть судьбу» + «Искупление» + «Волчья ягода»!«Обмануть судьбу»Аксинья выросла в небольшой деревне, недалеко от Соли Камской. Ее судьба была предопределена с детства, но в глубине души ей хотелось большой любви, как и в сказках про Василису