ORC in Hive/Spark — “анатомия” файла, индексация и фильтр Блума

ORC in Hive/Spark — “анатомия” файла, индексация и фильтр Блума

ORC in Hive/Spark - “анатомия” файла, индексация и фильтр БлумаORC — это колоночный формат, то есть данные хранятся не по строкам (как в CSV), а по столбцам. Именно это даёт ему способность эффективно сжимать и читать только нужные колонки. Есть ещё встроенная индексация и фильтр Блума, которые позволяют не перелопачивать лишние данные.Давайте заглянем под капот и посмотрим, как устроен ORC-файл, зачем там индексы и как фильтр Блума ускоряет поиск.I. Анатомия файла Читать далее

1 апреля 2026, среда 14:00 Оставить комментарий Источник

Похожие материалы

[Перевод] Что такое фильтр Блума?

Всем привет! В этой статье я постараюсь описать, что такое фильтр Блума, рассказать о его назначении и показать сценарии, в которых его можно использовать. Я также реализую фильтр Блума на Python с нуля в целях облегчения понимания его внутреннего устройства. Фильтр Блума. Что это?

9 февраля 2021, вторник 2:53 Источник
[Перевод] Когда фильтр Блума не подходит

Я ещё с университета знал о фильтре Блума — вероятностной структуре данных, названной в честь Бёртона Блума. Но у меня не было возможности её использовать. В прошлом месяце такая возможность появилась — и эта структура буквально очаровала меня. Впрочем, вскоре я нашёл у неё некоторые недостатки. В этой статье — рассказ о моей краткой любовной связи с фильтром Блума. Читать дальше →

5 марта 2020, четверг 12:04 Источник
CVE-2018-8015

In Apache ORC 1.0.0 to 1.4.3 a malformed ORC file can trigger an endlessly recursive function call in the C++ or Java parser. The impact of this bug is most likely denial-of-service against software that uses the ORC file parser. With the C++ parser, the stack overflow might possibly corrupt the stack.

19 мая 2018, суббота 0:00 Источник

ORC in Hive/Spark — “анатомия” файла, индексация и фильтр Блума

Комментарии

Похожие материалы

[Перевод] Что такое фильтр Блума?

[Перевод] Когда фильтр Блума не подходит

CVE-2018-8015