Узнайте о новейших подходах к обработке данных на ApacheSpark от ведущих дата-инженеров.
Таймкоды:
00:00 - Вступление
23:37 - Эволюция ежедневного расчёта на 1 Пб данных: от ClickHouse к shuffle-free Spark
1:15:00 - Демократизация DQ-проверок в DataLakeHouse
2:15:00 - Использование оптимизаций Apache Spark. Storage-Partitioned Join и ее производные в регулярных ETL