Target encoding кажется удобным способом «сжать» категориальные признаки и добавить модели сигнал, но вместе с этим он легко приводит к утечке таргета и завышенным метрикам, которые не переживают прод. В статье разбирается, где именно возникает leakage, почему наивная реализация ломает модель и как правильно считать признаки через LOO и K-Fold, чтобы получать честный результат, а не иллюзию качества. Читать далее
Привет, Хабр! С вами снова Артём, Team Lead Data Scientist из МегаФона. Надеюсь, вам понравилась первая статья серии о нестандартных методах кодирования категориальных данных, где я поделился своим опытом и показал, как с кодированием справляется тематическое моделирование. Во второй части вы узнаете о более сложных подходах. Инсайты могут быть полезны специалистам в Data Science для решения широкого класса задач: от классификации до построения рекомендательных систем. В путь
Apache Tomcat 10.0.0-M1 to 10.0.6, 9.0.0.M1 to 9.0.46 and 8.5.0 to 8.5.66 did not correctly parse the HTTP transfer-encoding request header in some circumstances leading to the possibility to request smuggling when used with a reverse proxy. Specifically: - Tomcat incorrectly ignored the transfer encoding header if the client declared it would only accept an HTTP/1.0 response; - Tomcat honoured the identify encoding; and - Tomcat did not ensure that, if present, the chunked encoding was the final encoding.
detect-character-encoding is an open source character encoding inspection library. In detect-character-encoding v0.6.0 and earlier, data matching no charset causes the Node.js process to crash. The problem has been patched in [detect-character-encoding v0.7.0](https://github.com/sonicdoe/detect-character-encoding/releases/tag/v0.7.0). No workaround are available and all users should update to resolve this issue.