Исследование уязвимостей LLM-агентов: опыт Red Teaming

Исследование уязвимостей LLM-агентов: опыт Red Teaming

Привет, Хабр!Сначала об определениях. LLM Red teaming — практика тестирования больших языковых моделей (например, GPT), направленная на выявление уязвимостей, нежелательного поведения и способов их взлома (jailbreak). Суть в том, чтобы через специальные подсказки или методы…

30 марта 2025, воскресенье 20:17 Оставить комментарий Источник

Похожие материалы

5 Мифов о Red Teaming

Термин Red Teaming слышали все, кто связан с информационной безопасностью напрямую или косвенно. Но не все до конца понимают, что это такое: зачем нужна оценка эффективности команды реагирования на инциденты? Что это за форма обучения команды защитников? Часто Red Teaming выдают за…

21 мая 2020, четверг 11:00 Источник
Red Teaming: планирование проекта, модели и сценарии

Red Teaming — это про обучение и подготовку защитников организации к отражению реальной атаки, а еще, конечно, про оценку общего уровня безопасности в компании. В предыдущем посте мы писали о мифах, которые сложились вокруг Red Teaming. Сегодня мы хотели бы рассказать о том, как его…

25 июня 2020, четверг 11:02 Источник
[Перевод] Red Teaming для LLM: Полное пошаговое руководство по Red Teaming больших языковых моделей

Помните ситуацию, когда Gemini излишне старался быть политкорректным и отображал на всех сгенерированных изображениях только представителей небелых рас? Хотя это могло показаться забавным для многих, данный инцидент наглядно показал, что по мере роста возможностей больших…

13 февраля 2025, четверг 14:30 Источник

Исследование уязвимостей LLM-агентов: опыт Red Teaming

Комментарии

Похожие материалы

5 Мифов о Red Teaming

Red Teaming: планирование проекта, модели и сценарии

[Перевод] Red Teaming для LLM: Полное пошаговое руководство по Red Teaming больших языковых моделей