[Перевод] От «равных» весов к «умным»: OTPO для более точного Alignment LLM

[Перевод] От «равных» весов к «умным»: OTPO для более точного Alignment LLM

LLM уже умеют многое, но качество их ответов по-прежнему упирается в тонкую настройку под человеческие предпочтения. Direct Preference Optimization стал стандартом де-факто для алайнмента, но у него есть фундаментальный изъян: все токены в ответе считаются равнозначными. Для человека же…

3 сентября 2025, среда 17:07 Оставить комментарий Источник

Похожие материалы

LLM на прокачку: практический гайд по Alignment

Мы в Точка Банке делаем свою LLM. Чтобы она работала хорошо, недостаточно просто обучить её на куче текстов. Для получения осмысленного и предсказуемого поведения модели, нужен Alignment — дообучение с учётом предпочтений и ограничений. В статье расскажу, какие методы применяют в современных моделях, и как мы адаптировали их под себя. Читать далее

18 августа 2025, понедельник 15:26 Источник
[Перевод] Как я взломал миллионы умных весов через уязвимости в API и железе

Сегодня расскажу, как мне удалось перехватить управление миллионами смарт-весов, подключенных к интернету. Причина — уязвимость в механизме привязки весов к пользователю, превратившая эти устройства в идеальные мишени для атак.Эта находка наглядно показывает, что аппаратная и веб-безопасность — две одинаково важные составляющие защиты умных устройств. Отыскав уязвимости в каждой из них, злоумышленник может достичь по-настоящему пугающих результатов. Читать далее

20 мая 2025, вторник 14:34 Источник
Набор гирек для весов 2000 гр

Набор гирек для весов 2000 гр Набор гирек для весов 2000 гр в наличиивозможна доставка. Цена: 2190.00 ₽ КУПИТЬ

2 февраля 2025, воскресенье 13:11 Источник

[Перевод] От «равных» весов к «умным»: OTPO для более точного Alignment LLM

Комментарии

Похожие материалы

LLM на прокачку: практический гайд по Alignment

[Перевод] Как я взломал миллионы умных весов через уязвимости в API и железе

Набор гирек для весов 2000 гр