AI Red Teaming: спор с Grok — Часть 3. Атаки на модель: jailbreaks, thinking tokens и системный промпт

AI Red Teaming: спор с Grok — Часть 3. Атаки на модель: jailbreaks, thinking tokens и системный промпт

LLM-систем есть класс уязвимостей, которого нет в обычных веб-приложениях. Извлёк системный промпт Grok двумя способами, поймал утечку thinking tokens в NDJSON-стриме и обошёл safety-фильтры в 14 из 22 категорий. Самое неожиданное — Grok активно помогал мне себя ломать. Читать далее

2 марта 2026, понедельник 1:24 Оставить комментарий Источник

Похожие материалы

AI Red Teaming: спор с Grok — Часть 4. От атаки к защите: как результаты red team улучшили мой продукт

61 уязвимость бесполезна, если не превращается в защиту. Каждую находку в Grok я превратил в вопрос: «а мы от этого защищаем?» Ответ был неутешительный — 5 из 5 нет. Как результаты red team стали 138 паттернами, правилами и payloads в нашем продукте. Плюс — чем закончился спор с Grok. Читать далее

2 марта 2026, понедельник 1:34 Источник
Red Teaming: планирование проекта, модели и сценарии

Red Teaming — это про обучение и подготовку защитников организации к отражению реальной атаки, а еще, конечно, про оценку общего уровня безопасности в компании. В предыдущем посте мы писали о мифах, которые сложились вокруг Red Teaming. Сегодня мы хотели бы рассказать о том, как его…

25 июня 2020, четверг 11:02 Источник
5 Мифов о Red Teaming

Термин Red Teaming слышали все, кто связан с информационной безопасностью напрямую или косвенно. Но не все до конца понимают, что это такое: зачем нужна оценка эффективности команды реагирования на инциденты? Что это за форма обучения команды защитников? Часто Red Teaming выдают за…

21 мая 2020, четверг 11:00 Источник

AI Red Teaming: спор с Grok — Часть 3. Атаки на модель: jailbreaks, thinking tokens и системный промпт

Комментарии

Похожие материалы

AI Red Teaming: спор с Grok — Часть 4. От атаки к защите: как результаты red team улучшили мой продукт

Red Teaming: планирование проекта, модели и сценарии

5 Мифов о Red Teaming