[Перевод] Невероятная производительность ввода-вывода с параллельным Apache Parquet на Python

[Перевод] Невероятная производительность ввода-вывода с параллельным Apache Parquet на Python

В преддверии старта курса «Data Engineer» подготовили перевод небольшого, но интересного материала. В этой статье я расскажу о том, как Parquet сжимает большие наборы данных в маленький файл footprint, и как мы можем достичь пропускной способности, значительно превышающей пропускную способность потока ввода-вывода, используя параллелизм (многопоточность). Читать дальше →

19 февраля 2020, среда 18:08 Оставить комментарий Источник

Похожие материалы

CVE-2021-41561

Improper Input Validation vulnerability in Parquet-MR of Apache Parquet allows an attacker to DoS by malicious Parquet files. This issue affects Apache Parquet-MR version 1.9.0 and later versions.

20 декабря 2021, понедельник 20:01 Источник
Паркет: потрогаем parquet файл руками (через Thrift и python)

Анализируем структуру файлового формата parquet и читаем метаданные через thrift и python: индексы, страницы и их типы, кодировки (encodings). Статья является хорошим дополнением и иллюстрацией к документации формата parquet. С помощью кода из репозитория любой желающий сможет самостоятельно проанализировать метаданные файла в формате parquet на самом низком уровне. Читать далее

18 февраля 2026, среда 9:56 Источник
Гайд: Как работать с форматом PARQUET

В прошлом году мы начали публиковать данные в каталоге «Если быть точным» в формате Parquet. Его придумали инженеры Twitter и Cloudera в 2013 году, и сегодня он стал стандартом хранения аналитических данных — его используют Google, Amazon, Netflix и большинство современных data-платформ. В этом гайде мы расскажем, как эффективно работать с данными в формате Parquet с помощью Python. Читать далее

23 марта 2026, понедельник 9:16 Источник

[Перевод] Невероятная производительность ввода-вывода с параллельным Apache Parquet на Python

Комментарии

Похожие материалы

CVE-2021-41561

Паркет: потрогаем parquet файл руками (через Thrift и python)

Гайд: Как работать с форматом PARQUET