Цифровая археология: восстановление конвейеров по обучению ML-моделей

Различные модели машинного обучения прочно заняли свое место в индустрии информационной безопасности. В «Лаборатории Касперского» мы используем множество моделей машинного обучения для решения различных задач, таких как обнаружение киберугроз, автоматизация внутренних процессов и многое другое. Однако, несмотря на их полезность, при разработке и поддержке таких моделей возникают определенные трудности. Часто процесс переобучения модели превращается в долгий и сложный квест, в котором нужно найти рабочую Jupyter-тетрадь в неизвестной ветке заброшенного репозитория. Кроме того, необходимо убедиться, что ваш набор данных пополнялся все эти месяцы с момента последнего обучения. Эти трудности возникают отчасти потому, что команды, состоящие исключительно из специалистов по данным, часто сосредотачиваются на исследовательской работе в ущерб инженерной части. Поговорим о сложностях, с которыми мы сталкивались при восстановлении конвейеров для обучения ML-моделей. Расскажем, как нам пришлось заниматься настоящей «цифровой археологией» — чтобы найти старые, забытые, не всегда корректно работающие скрипты в папках давно ушедших членов команды и заставить их работать. Подскажем, как избежать подобных проблем в будущем. Иван Балагуров «Лаборатория Касперского»

1 view

132