ИИИ Спортивный анализ данных - 8 лекция - + YandexGPT =

ИИИ Спортивный анализ данных - 8 лекция - конспект от YandexGPT 00:14 Введение в алгоритмы обучения с учителем • Обсуждение общих алгоритмов обучения с учителем, включая пропуски и выбросы. • Упоминание о важности принципа обучения на основе входных и правильных выходных данных для подбора функции, решающей задачу на новых данных. 03:07 Классификация и регрессия • Классификация: бинарная, многоклассовая и мультиклассовая. • Регрессия: вещественное число от минус бесконечности до плюс бесконечности. 04:37 Метрики и разбиение данных • Обсуждение метрик для классификации: точность, отзыв, F1-мера, лог-потери, специфичность, коэффициент номинации. • Разбиение данных на тройной тест и перекрестная валидация. 07:45 Линейные модели • Линейная регрессия, логистическая регрессия, модификации с регуляризацией. • Сгд - одна из немногих моделей, которая может обучаться на новых итерациях. 11:47 Классификация и регрессия • В видео обсуждаются различные алгоритмы классификации и регрессии, включая линейную регрессию, деревья решений, наивный байес, ансамбли и бустинг. • Линейная регрессия чувствительна к выбросам и не понимает нелинейности в данных. • Деревья решений и наивный байес устойчивы к выбросам, но чувствительны к масштабированию данных. • Ансамбли и бустинг объединяют различные алгоритмы для усиления их эффектов. 24:37 Устойчивость к выбросам • Все алгоритмы, кроме линейных, устойчивы к выбросам. • Линейные подходы, такие как линейная регрессия, чувствительны к выбросам. • Ансамбли и бустинг используют различные подходы для борьбы с выбросами. 26:37 Нормализация данных • В видео обсуждается важность нормализации данных для линейных моделей, таких как линейная регрессия и классические модели. • Нормализация данных помогает избежать проблем с переобучением и позволяет моделям лучше работать с различными типами данных. 33:17 Использование Randomized Search • В видео объясняется, как использовать инструмент Randomized Search для подбора параметров моделей. • Randomized Search позволяет быстро найти оптимальное решение, но может не найти самое лучшее решение. • В примере используется Randomized Search для подбора параметров классической регрессии. 43:12 Создание поискового пространства для классификаторов • В видео обсуждается создание поискового пространства для классификаторов, где можно перебирать различные параметры и их комбинации. • Это позволяет быстро найти оптимальное решение для модели. 47:07 Расширение поискового пространства • Можно расширить поисковое пространство, добавив больше словарей с моделями и шагами обработки. • Это позволяет более детально исследовать различные варианты и найти лучшее решение. 50:07 Использование преобразователей и нормализаторов • В видео объясняется, как использовать преобразователи и нормализаторы в поисковом пространстве. • Это позволяет упростить процесс обучения и прогнозирования. 52:07 Пример использования преобразователя • В примере создается простой преобразователь, который заполняет пропуски медианой для каждой колонки. • Это позволяет использовать его в поисковом пространстве для прогнозирования. 59:32 Метод наименьших квадратов • В видео обсуждается метод наименьших квадратов, который используется для построения математической модели, максимально хорошо описывающей данные. • Модель строится на основе коэффициентов, которые определяют, насколько значима каждая фича (особенность) для изменения игрика. 01:06:27 Применение регрессии • Регрессия может быть использована для прогнозирования и объяснения бизнес-процессов, таких как влияние безработицы на уровень преступности или влияние оценок ЕГЭ на поступление в университет. • Регрессия также может быть использована для интерполяции данных и выхода за пределы обучаемого диапазона. 01:10:27 Ограничения регрессии • Регрессия может иметь ограничения, если обучаемый диапазон данных не охватывает все возможные ситуации. • В этом случае, модель может быть переобучена на новых данных или обучена новая модель для новой реальности. 01:13:25 Линейная регрессия и ее условия • Линейная регрессия - это модель, которая может быть использована для прогнозирования, но только при определенных условиях. • Одно из условий - нормальное распределение остатков, которое показывает, что точки распределены равномерно. • Другое условие - гомоскедастичность, которая говорит о том, что дисперсия остатков не меняется во времени. 01:19:22 Примеры применения линейной регрессии • В примере, где модель показала хороший коэффициент детерминации, но с неравномерным распределением остатков, модель не может быть применена. • В другом примере, где модель показала хороший результат, но с неравномерным распределением остатков, модель также не может быть применена. • Важно экспериментировать с различными наборами переменных и их комбинациями для получения лучшего результата.
Back to Top