Для анализа данных в облаке не достаточно СУБД и средств визуализации — нужен ещё и понятный инструмент, который автоматизирует сбор, подготовку и обработку данных. На вебинаре мы расскали о таком сервисе — Apache Airflow.
Эксперты Yandex Cloud обсудили:
- как спроектировать инфраструктуру для Apache Airflow;
- как собирать данные в облако для анализа и визуализации на основе Python и Spark;
- как автоматизировать обогащение данных и подготовку витрин в аналитическом хранилище на основе PostgreSQL, Greenplum и Clickhouse;
- как обеспечивать отказоустойчивость и непрерывность конвейеров данных.
Вебинар был интересен и тем, кто только собирается попробовать аналитику данных в облаке, и тем, кто строит такую платформу или хочет масштабировать уже работающую среду. CDO и CTO смогли разобраться, чем инструмент будет полезен бизнесу, а дата-инженеры — получили практические рекомендации для его использования.
Полезные ссылки:
Репозиторий с примерами из вебинара
Образ Apache Airflowв Marketplace
Провайдеры Yandex Cloud для Apache Airflow
Запись митапаDataOps Community Meetup
Запись митапа Greenplum Community Meetup
Другие вебинары Yandex Cloud Data Platform
Спросить в комьюнити - чат Yandex Cloud Data Platform
Следить за новостями - чат Yandex Cloud Data Platform
Таймкоды:
00:00 Интро
00:10 Apache Airflow: обзор
09:25 Сценарии использования
13:55 Загрузка и обогащение данныхв Yandex Data Proc
36:05 Обработка данныхв хранилище Greenplum®
45:44 Полезные ресурсы и материалы
46:49 Сессия Q&A