Методы защиты кластера Hadoop в большой ML команде
Подписывайтесь на наш канал здесь и в телеграмм , чтобы быть в курсе будущих митапов и не пропускать полезные доклады!
Мария Изофатова / Мегафон
00:00 - Введение
00:33 - Экосистема Hadoop
01:02 - План доклада
01:19 - Настройка конфигурации spark
03:22 - Мониторинг spark application через Python
05:14 - Сохранение файлов в HDFS
06:24 - Хранение файлов в HDFS
06:58 - Партиционирование
08:14 - Контроль числа файлов
09:18 - Склеиватель файлов в hdfs
10:24 - Память кластера
11:32 - Итоги
Доклад посвящен способам борьбы с уязвимостями кластера Apache Hadoop: репартиционирование (проблема мелких файлов), автоочищение таблиц на кластере, настройка конфигурации PySpark, анализ запущенных Spark application и внутреннего кода. При наличии большого количества аналитиков, которые работают с кластером, могут возникать проблемы с количеством памяти и ресурсов, а также риски создать лишнюю нагрузку на name ноды. Описанные решения по администрированию Hadoop основаны на анализе данных Python и PySpark и могут быть использованы в команде аналитиков любого масштаба.
43 views
644
183
1 month ago 00:07:53 4
5 НОВЫХ СХЕМ МОШЕННИЧЕСТВА: как не стать жертвой?
2 months ago 00:17:16 1
ЗАЩИТИ СЕБЯ: Их слова — угроза твоему здоровью и будущему малыша