Ярослав Игошев. Distributed Data Processing and XGBoost Training and Prediction

Расскажу о том, как можно ускорить пайплайн, который включает в себя обработку данных, обучение XGBoost модели и предсказание, даваемой этой моделью, за счет распределения вычислений на множество процессов. При этом вам не придется изучать новые библиотеки и их API. Фокус будет сосредоточен вокруг небольшого ряда библиотек хорошо известных людям, которые знакомы с Data Science и Machine Learning. В частности, речь пойдет о таких библиотеках как pandas, Modin и XGBoost. Покажу, как Modin позволяет ускорить pandas запросы, всего лишь, изменив одну строку кода вашего сценария, а также расскажу о его распределенной реализации обучения и прогнозирования XGBoost модели.

1 view