Методы защиты кластера Hadoop в большой ML команде

Подписывайтесь на наш канал здесь и в телеграмм , чтобы быть в курсе будущих митапов и не пропускать полезные доклады! Мария Изофатова / Мегафон 00:00 - Введение 00:33 - Экосистема Hadoop 01:02 - План доклада 01:19 - Настройка конфигурации spark 03:22 - Мониторинг spark application через Python 05:14 - Сохранение файлов в HDFS 06:24 - Хранение файлов в HDFS 06:58 - Партиционирование 08:14 - Контроль числа файлов 09:18 - Склеиватель файлов в hdfs 10:24 - Память кластера 11:32 - Итоги Доклад посвящен способам борьбы с уязвимостями кластера Apache Hadoop: репартиционирование (проблема мелких файлов), автоочищение таблиц на кластере, настройка конфигурации PySpark, анализ запущенных Spark application и внутреннего кода. При наличии большого количества аналитиков, которые работают с кластером, могут возникать проблемы с количеством памяти и ресурсов, а также риски создать лишнюю нагрузку на name ноды. Описанные решения по администрированию Hadoop основаны на анализе данных Python и PySpark и могут быть использованы в команде аналитиков любого масштаба.

43 views

644

183