Привет, Хабр!Сегодня рассмотрим тему обработки временных рядов с помощью Polars. Начну с того, что в Pandas для агрегации временных рядов принято использовать метод resample(). Он удобен и привычен, но имеет свои ограничения по производительности и гибкости. Polars, в свою очередь, имеет метод groupby_dynamic(), который позволяет группировать данные по динамическим временным интервалам. Читать далее
Improper Input Validation vulnerability in Parquet-MR of Apache Parquet allows an attacker to DoS by malicious Parquet files. This issue affects Apache Parquet-MR version 1.9.0 and later versions.
Анализируем структуру файлового формата parquet и читаем метаданные через thrift и python: индексы, страницы и их типы, кодировки (encodings). Статья является хорошим дополнением и иллюстрацией к документации формата parquet. С помощью кода из репозитория любой желающий сможет самостоятельно проанализировать метаданные файла в формате parquet на самом низком уровне. Читать далее
Привет, Хабр! Это Леша Жиряков, техлид backend-команды витрины онлайн-кинотеатра KION. В прошлом посте я рассказывал про альтернативы Pandas, а сегодня будем сравнивать две библиотеки — Polars и Pandas. Обсудим, какие преимущества есть у Polars и за счет чего она выигрывает в производительности. В посте — мой взгляд, но мнения по этому поводу, конечно, разные. Пишите, что думаете, в комментариях — будем обсуждать! Читать далее