[Из песочницы] Создание Dataflow шаблона для стриминга данных из Pub/Sub в BigQuery на базе GCP с помощью Apache Beam SDK и Python

[Из песочницы] Создание Dataflow шаблона для стриминга данных из Pub/Sub в BigQuery на базе GCP с помощью Apache Beam SDK и Python

В данный момент занимаюсь задачей стриминга (и преобразования) данных. В некоторых кругах такой процесс известен как ETL, т.е. извлечение, преобразование и загрузка информации. Весь процесс включает в себя участие следующих сервисов Google Cloud Platform: Pub/Sub — сервис для realtime стриминга данных Dataflow — сервис для преобразования данных (может работать как в realtime так и в batch режиме) BigQuery — сервис для хранения данных в виде таблиц (поддерживает SQL) Читать дальше →

27 февраля 2019, среда 12:58 Оставить комментарий Источник

Похожие материалы

[Перевод] Генерация конвейеров обработки данных в Dataflow

Эта статья посвящена всем практикующим специалистам по данным, заинтересованным в освоении запуска, стандартизации и автоматизации пакетных конвейеров данных в Netflix. О Dataflow мы писали в статье под названием Data pipeline asset management with Dataflow. Та статья представляла подробное знакомство…

23 декабря 2022, пятница 18:00 Источник
Работа с Google BigQuery. Считаем деньги

В данной статье мы хотели бы рассказать о том, как мы в команде Wargaming Platform знакомились с BigQuery, о задаче, которую необходимо было решать, и проблемах, с которыми мы столкнулись. Кроме того, расскажем немного о ценообразовании и об инструментах, имеющихся в BigQuery, с которыми нам удалось поработать, а также предоставим наши рекомендации, как можно сэкономить бюджет во время работы с BigQuery. Читать далее

5 февраля 2021, пятница 13:03 Источник
Обзор основных функций Google BigQuery и примеры запросов для маркетинг-анализа

Google BigQuery – это быстрое, экономичное и масштабируемое хранилище для работы с Big Data, которое вы можете использовать, если у вас нет возможности или желания содержать собственные серверы. В нем можно писать запросы с помощью SQL-like синтаксиса, стандартных и пользовательских функций (User-defined function). В статье я расскажу про основные функции BigQuery и покажу их возможности на конкретных примерах. Вы сможете писать базовые запросы, и опробовать их на demo данных. Читать дальше →

15 июля 2020, среда 18:11 Источник

[Из песочницы] Создание Dataflow шаблона для стриминга данных из Pub/Sub в BigQuery на базе GCP с помощью Apache Beam SDK и Python

Комментарии

Похожие материалы

[Перевод] Генерация конвейеров обработки данных в Dataflow

Работа с Google BigQuery. Считаем деньги

Обзор основных функций Google BigQuery и примеры запросов для маркетинг-анализа