Target Encoding: кодирование категориальных признаков без утечки данных

Target Encoding: кодирование категориальных признаков без утечки данных

Target encoding кажется удобным способом «сжать» категориальные признаки и добавить модели сигнал, но вместе с этим он легко приводит к утечке таргета и завышенным метрикам, которые не переживают прод. В статье разбирается, где именно возникает leakage, почему наивная реализация ломает модель и как правильно считать признаки через LOO и K-Fold, чтобы получать честный результат, а не иллюзию качества. Читать далее

9 апреля 2026, четверг 6:13 Оставить комментарий Источник

Похожие материалы

«От категорий к векторам», или нестандартное кодирование категориальных данных. Часть 2

Привет, Хабр! С вами снова Артём, Team Lead Data Scientist из МегаФона. Надеюсь, вам понравилась первая статья серии о нестандартных методах кодирования категориальных данных, где я поделился своим опытом и показал, как с кодированием справляется тематическое моделирование. Во второй части вы узнаете о более сложных подходах. Инсайты могут быть полезны специалистам в Data Science для решения широкого класса задач: от классификации до построения рекомендательных систем. В путь

8 ноября 2021, понедельник 11:31 Источник
CVE-2021-33037

Apache Tomcat 10.0.0-M1 to 10.0.6, 9.0.0.M1 to 9.0.46 and 8.5.0 to 8.5.66 did not correctly parse the HTTP transfer-encoding request header in some circumstances leading to the possibility to request smuggling when used with a reverse proxy. Specifically: - Tomcat incorrectly ignored the transfer encoding header if the client declared it would only accept an HTTP/1.0 response; - Tomcat honoured the identify encoding; and - Tomcat did not ensure that, if present, the chunked encoding was the final encoding.

12 июля 2021, понедельник 22:00 Источник
CVE-2021-39157

detect-character-encoding is an open source character encoding inspection library. In detect-character-encoding v0.6.0 and earlier, data matching no charset causes the Node.js process to crash. The problem has been patched in [detect-character-encoding v0.7.0](https://github.com/sonicdoe/detect-character-encoding/releases/tag/v0.7.0). No workaround are available and all users should update to resolve this issue.

25 августа 2021, среда 2:01 Источник

Target Encoding: кодирование категориальных признаков без утечки данных

Комментарии

Похожие материалы

«От категорий к векторам», или нестандартное кодирование категориальных данных. Часть 2

CVE-2021-33037

CVE-2021-39157