Количество партиций в Spark DataFrame, DataSet на основе Relational Data Base table

Количество партиций в Spark DataFrame, DataSet на основе Relational Data Base table

В прошлой статье мы рассмотрели количество партиций, которое по умолчанию создается Apache Spark при инициализации DataFrame, DataSet. В текущей статье продолжим рассматривать количество партиций у Spark DataFrame и DataSet, созданных на основе таблицы в Relational Database. Читать далее

7 декабря 2022, среда 15:03 Оставить комментарий Источник

Похожие материалы

Количество партиций в Spark при инициализации Data API: DataFrame, RDD, DataSet

Любое Spark Data API: DataFrame, RDD, DataSet состоит из партиций. Партиция — это часть данных, аллоцированных в оперативной памяти воркеров (жестком диске при кэшировании) для параллельных преобразований. Например, можно одновременно прибавить какое-то число к каждому элементу из партиции. Распределение элементов по партициям и их количество может происходить по принципу round-robin либо по хэшу от какой-то колонки в результате различных операций и зависит от типа операции. Читать далее

2 сентября 2022, пятница 20:17 Источник
[Перевод] Как Apache Kafka поддерживает 200К партиций в кластере?

В Kafka топик может содержать множество партиций, между которыми распределяются записи. Партиции — это единицы параллелизма. В целом, чем больше партиций, тем выше пропускная способность. Однако есть некоторые факторы, которые стоит учитывать, когда в кластере Kafka много партиций. Читать дальше →

2 марта 2021, вторник 5:02 Источник
[Перевод] Потоковая передача данных с помощью Apache Spark и MongoDB

MongoDB объявила о выпуске 10.0 версии коннектора MongoDB для Apache Spark. В этой версии используется новый API Spark Data Sources второй версии (V2) с поддержкой структурированной потоковой передачи данных Spark (Spark Structured Streaming). Зачем нужна новая версия? Текущая версия MongoDB Spark Connector была первоначально…

24 июня 2022, пятница 16:00 Источник

Количество партиций в Spark DataFrame, DataSet на основе Relational Data Base table

Комментарии

Похожие материалы

Количество партиций в Spark при инициализации Data API: DataFrame, RDD, DataSet

[Перевод] Как Apache Kafka поддерживает 200К партиций в кластере?

[Перевод] Потоковая передача данных с помощью Apache Spark и MongoDB