Методы защиты кластера Hadoop в большой ML команде
Подписывайтесь на наш канал здесь и в телеграмм , чтобы быть в курсе будущих митапов и не пропускать полезные доклады!
Мария Изофатова / Мегафон
00:00 - Введение
00:33 - Экосистема Hadoop
01:02 - План доклада
01:19 - Настройка конфигурации spark
03:22 - Мониторинг spark application через Python
05:14 - Сохранение файлов в HDFS
06:24 - Хранение файлов в HDFS
06:58 - Партиционирование
08:14 - Контроль числа файлов
09:18 - Склеиватель файлов в hdfs
10:24 - Память кластера
11:32 - Итоги
Доклад посвящен способам борьбы с уязвимостями кластера Apache Hadoop: репартиционирование (проблема мелких файлов), автоочищение таблиц на кластере, настройка конфигурации PySpark, анализ запущенных Spark application и внутреннего кода. При наличии большого количества аналитиков, которые работают с кластером, могут возникать проблемы с количеством памяти и ресурсов, а также риски создать лишнюю нагрузку на name ноды. Описанные решения по администрированию Hadoop основаны на анализе данных Python и PySpark и могут быть использованы в команде аналитиков любого масштаба.
2 views
644
183
4 months ago 00:02:02 1
Биткоин - самая НАДЕЖНАЯ инвестиция года👛🏃🚃 🌋🗽🗼🎠🚢🚀✈🚤
4 months ago 00:05:21 1
“Поднимая знамя“ группы “Северный флот“ Дипломный проект анимационного клипа.
4 months ago 01:40:38 1
Как вербуют секты и причем тут строгие семьи? Социальный психолог о коучах, продажах квартир и детях
4 months ago 00:03:41 1
Мне подарил волшебный кубик друг Ингель с моими картинами. Спасибо. Хасай Алиев. Метод Ключ.