Машинное обучение - - практика по LGBM Classifier + конспект от YandexGPT

Машинное обучение - - практика по LGBM Classifier конспект от YandexGPT 00:03 Библиотека GBM • Видео обсуждает библиотеку GBM, разработанную в 2017 году и поддерживаемую компанией Microsoft. • Библиотека использует алгоритм бустинга, который объединяет несколько моделей и выдает результат на основе их решения. • GBM использует две ключевые идеи: градиентную выборку и объединение взаимоисключающих признаков. 07:03 Использование GBM для классификации • В видео демонстрируется использование GBM для задачи классификации на примере датасета с признаками машин. • GBM работает с категориальными признаками, но требует их предварительной обработки. • В видео также обсуждаются параметры, которые можно настроить в GBM, включая количество деревьев, степень отчетности и количество классов. 14:02 Обучение и использование GBM • GBM быстро обучается и может быть использован для прогнозирования классов. • В видео показано, как использовать GBM для классификации, используя функцию predict. • GBM возвращает вероятности классов, и класс определяется по максимальной вероятности. 19:56 Настройка параметров классификатора LightGBM • Обсуждение параметров классификатора LightGBM, таких как функция Train, класс classifier lgbm, параметры для настройки дерева, глубины дерева, количества листьев, шагов обучения, веса классов, выборка данных, обучающая выборка, целевая переменная, набор для проверки, ранняя остановка, количество итераций, итерации. • Демонстрация изменения точности модели в зависимости от параметров и типов бустинга. 34:23 Дополнительные возможности LightGBM • Обсуждение возможностей LightGBM, таких как использование колбеков, изменение количества итераций, изменение глубины дерева, использование перемешивания данных, использование части признаков для обучения каждого дерева, использование регуляризации и ограничение глубины дерева. • Обсуждение особенностей библиотеки LightGBM, таких как возможность построения деревьев неограниченной глубины и использование несимметричных деревьев для разных признаков. 38:21 Обзор LightGBM • LightGBM - это библиотека для построения несимметричных деревьев, которая может регулировать уровень порогов и сохранять модель в формате мо или текстовой строки. • LightGBM также имеет возможность оценивать важность признаков и использовать стандартный метод лог-имп для этого. 43:41 Пример использования LightGBM • В качестве примера предлагается использовать онлайн-заказы для классификации задач. • Сначала необходимо загрузить датасет, оценить тип столбцов, посмотреть распределение и почистить данные. • Затем можно закодировать целевую переменную и разделить данные на обучающую и тестовую выборки. • После этого можно обучить модель с помощью LightGBM и оценить точность с помощью метрик. 56:02 Обсуждение признаков и целевой переменной • В видео обсуждается, что если все признаки в колонке одинаковые, то их можно удалить, так как они не несут никакой информации. • Если же признаки отличаются, то они могут быть информативными и их следует оставить. 59:27 Целевая переменная и фидбек • В видео объясняется, что целевая переменная - это статус заказа, а не фидбек (отзыв о заказе). • Фидбек - это окончательный результат заказа, положительный или отрицательный. • Задача предсказания фидбека может быть более сложной, так как она требует анализа отзывов клиентов. 01:10:36 Сокращение датасета • В видео говорится о том, что если в датасете пропущено 71% записей, то можно предположить, что 71% клиентов не дали отзыв. • Это позволяет сократить датасет и сосредоточиться на оставшихся 2/3 клиентов, которые дали отзыв.

1 view

960

411