Потоковая передача колоночных данных с помощью Apache Arrow

Потоковая передача колоночных данных с помощью Apache Arrow

Перевод статьи подготовлен специально для студентов курса «Data Engineer». За последние несколько недель мы с Nong Li добавили в Apache Arrow бинарный потоковый формат, дополнив уже существующий формат файлов random access/IPC. У нас есть реализации на Java и C++ и привязки Python. В этой статье я расскажу, как работает формат и покажу, как можно достичь очень высокой пропускной способности данных для DataFrame pandas. Читать дальше →

26 февраля 2020, среда 18:13 Оставить комментарий Источник

Похожие материалы

[Перевод] Потоковая передача данных с помощью Apache Spark и MongoDB

MongoDB объявила о выпуске 10.0 версии коннектора MongoDB для Apache Spark. В этой версии используется новый API Spark Data Sources второй версии (V2) с поддержкой структурированной потоковой передачи данных Spark (Spark Structured Streaming). Зачем нужна новая версия? Текущая версия MongoDB Spark Connector была первоначально…

24 июня 2022, пятница 16:00 Источник
CVE-2019-12410

While investigating UBSAN errors in https://github.com/apache/arrow/pull/5365 it was discovered Apache Arrow versions 0.12.0 to 0.14.1, left memory Array data uninitialized when reading RLE null data from parquet. This affected the C++, Python, Ruby and R implementations. The uninitialized memory could potentially be shared if are transmitted over the wire (for instance with Flight) or persisted in the streaming IPC and file formats.

9 ноября 2019, суббота 4:00 Источник
Потоковая обработка данных на С

Привет, Хабр!Кратко о том что такое потоковая обработка данных и в чем её отличие от пакетной.Пакет данных, это часть информации поступающая в систему которая содержит законченный или не полный фрагмент данных. Большинство механизмов цифровой передачи информации в современных системах построены на пакетной передаче. Отличие потоковых и пакетных систем обработки в том... Читать далее

14 апреля 2026, вторник 17:16 Источник

Потоковая передача колоночных данных с помощью Apache Arrow

Комментарии

Похожие материалы

[Перевод] Потоковая передача данных с помощью Apache Spark и MongoDB

CVE-2019-12410

Потоковая обработка данных на С