Всем привет!Погружаюсь в новую для себя область AI Security, в связи с чем решил написать несколько обзоров на самые обсуждаемые исследования и статьи по этой теме. Сегодня поговорим про взлом LLM и неожиданные выводы исследования StrongReject. Джейлбрейкнуть
Новости об очередных взломах базах данных и угонах паролей или хэшей появляются с пугающей регулярностью, причём даже от таких гигантов, как ВК и Yahoo. Но и пользователи Facebook и Google не могут быть уверены в своей безопасности, потому что суть проблемы не во взломах как таковых, а в…
Привет, Хабр! Начиная с сегодняшнего дня мы будем публиковать еженедельные дайджесты новостей информационной безопасности, рассказывать о новых взломах и угрозах, а также делиться своим опытом глобального наблюдения за киберпреступностью. В этой дайджесте вы узнаете о новых крупных взломах и атаках, маскировке известных группировок, секретах успешного фишинга и о том, сколько патчей Microsoft в июне нужно установить в обязательном порядке. Читать дайджест
Проблемы качества базы данных LLM[1] и необучаемости LLM в силу ограничения размеров контекстного окна сводятся к одной проблеме никак с LLM не связанной – оценке доверия к публикациям и их авторам вообще. Вторая проблема – LLM не умеет решать простые логические задачи легко решаемые