Ярослав Игошев. Distributed Data Processing and XGBoost Training and Prediction
Расскажу о том, как можно ускорить пайплайн, который включает в себя обработку данных, обучение XGBoost модели и предсказание, даваемой этой моделью, за счет распределения вычислений на множество процессов.
При этом вам не придется изучать новые библиотеки и их API. Фокус будет сосредоточен вокруг небольшого ряда библиотек хорошо известных людям, которые знакомы с Data Science и Machine Learning.
В частности, речь пойдет о таких библиотеках как pandas, Modin и XGBoost.
Покажу, как Modin позволяет ускорить pandas запросы, всего лишь, изменив одну строку кода вашего сценария, а также расскажу о его распределенной реализации обучения и прогнозирования XGBoost модели.
1 view
7
0
3 years ago 00:32:26 1
Ярослав Игошев. Distributed Data Processing and XGBoost Training and Prediction
5 years ago 00:27:18 39
Летний лагерь, 2019 | СОМ-ТВ | 2-3 выпуск | 6 сезон