Максим Зиналь, Дмитрий Рыбалко — Как обрабатывать данные с помощью Spark в облаке
Ближайшая конференция SmartData:
#SmartData #DataEngineering #IT #conference #jugrugroup
Многие компании предпочитают выстраивать работу с большими данными на базе Spark, однако в последнее время выбор end-to-end решений, предоставляющих возможность работы на масштабируемых Spark-кластерах в России, оказался ограниченным. Yandex Cloud предоставляет стек технологий, которые закрывают большую часть необходимой функциональности и позволяют параллельно обрабатывать данные с помощью Spark.
Из доклада вы узнаете:
* Как можно выстроить пайплайн обработки данных с помощью сервисов облака (DataProc и DataSphere), настроить взаимодействие со Spark-кластером через Jupyter-ноутбуки и почему удобно делать это в managed-сервисах.
* Как можно научить систему поднимать кластер под вас — именно тогда, когда он нужен, и экономить на этом.
* С какими сложностями сталкиваются компании при миграции, и какие пути решений они находят.
* Какие особенности есть у облачных сервисов.
* К чему надо быть готовым и какие могут понадобиться доработки.
Отдельный акцент будет сделан на взаимодействии инструментов для ML-разработки и кластера Spark.
Целевая аудитория: дата-инженеры, дата-сайентисты, аналитики.
Скачать презентацию с сайта —
16 views
386
107
2 days ago 00:03:05 857
Максим Зиналиев - «Лететь». Финал Дня первокурсника
9 months ago 00:34:25 16
Максим Зиналь, Дмитрий Рыбалко — Как обрабатывать данные с помощью Spark в облаке