Apache Spark Catalyst: секреты оптимизатора запросов, который должен знать каждый Data Engineer

Apache Spark Catalyst: секреты оптимизатора запросов, который должен знать каждый Data Engineer

Привет Хабр! Меня зовут Кучеров Андрей и я Lead Data Engineer с более чем 7-летним опытом в области распределенной обработки данных. Я работал над оптимизацией высоконагруженных Spark-приложений в X5 Retail Group и билайн, где мы обрабатывали петабайтные объемы данных. Регулярно сталкиваясь с производительностью запросов, я убедился, что понимание работы Catalyst — необходимый навык для каждого Data Engineer, работающего со Spark. Читать далее

16 апреля 2025, среда 10:00 Оставить комментарий Источник

Похожие материалы

[Перевод] Потоковая передача данных с помощью Apache Spark и MongoDB

MongoDB объявила о выпуске 10.0 версии коннектора MongoDB для Apache Spark. В этой версии используется новый API Spark Data Sources второй версии (V2) с поддержкой структурированной потоковой передачи данных Spark (Spark Structured Streaming). Зачем нужна новая версия? Текущая версия MongoDB Spark Connector была первоначально…

24 июня 2022, пятница 16:00 Источник
Что нового в Apache Spark 4.0

Apache Spark — это мощный фреймворк для распределённой обработки больших объёмов данных, позволяющий выполнять сложные вычисления на кластерах компьютеров с высокой производительностью и гибкостью. И вот 23 мая 2025 года компания Apache выпустила новую версию Spark 4.Стоит отметить, что Apache Spark — масштабный фреймворк с широким функционалом. В данной статье я сосредоточусь на нововведениях, которые в первую очередь затронут пользователей Spark SQL и PySpark. Читать далее

1 июля 2025, вторник 15:30 Источник
Уязвимость реализации протокола Simple Network Management Protocol (SNMP) операционной системы Cisco IOS XE точки доступа Catalyst и контроллеров беспроводной сети Cisco Catalyst серии 9000, связанная с ошибками при обработке запросов, позволяющая нарушит

Уязвимость реализации протокола Simple Network Management Protocol (SNMP) операционной системы Cisco IOS XE точки доступа Catalyst и контроллеров беспроводной сети Cisco Catalyst серии 9000 связана с ошибками при обработке запросов. Эксплуатация уязвимости может позволить нарушителю, действующему удалённо, раскрыть защищаемую информацию

4 января 2023, среда 2:00 Источник

Apache Spark Catalyst: секреты оптимизатора запросов, который должен знать каждый Data Engineer

Комментарии

Похожие материалы

[Перевод] Потоковая передача данных с помощью Apache Spark и MongoDB

Что нового в Apache Spark 4.0