Машинное обучение: кластеризация и аномалии на Python
Прокачаться в машинном обучении без учителя и научиться выделять кластеры в данных и искать аномалии
Описание
Это второй курс из серии Машинное обучение без учителя. На нем вы освоите работу с кластеризацией данных и поиском аномалий на примере задача хакатона Яндекс.Недвижимости по прогнозу срока экспозиции объявлений.
Курс разбит на 4 части. В первой части мы последовательно пройдем все этапы работы с данными: от видов задач и их постановки до работы с моделями машинного обучения для минимизации предсказательной ошибки. Дополнительно рассмотрим фундаментальные основы построения моделей машинного обучения, базовые метрики и наиболее простые модели - линейную регрессию, а также ансамбли машинного обучения.
Вторая часть посвящена базовым моделям кластеризации:
- Изучите внешние и внутренние метрики кластеризации.
- Разберете модели К-средних и FOREL и потренируетесь в их применении.
- Рассмотрите принципы работы агломеративной кластеризации и используете ее на практике.
- Узнаете про расстояние Махаланобиса и работу GMM.
В третьей части перейдем к продвинутой кластеризации:
- Погрузитесь в различия моделей DBSCAN, HDBSCAN и OPTICS.
- Разберете особенности модели распространения близости.
- Посмотрите на расширяющийся нейронный газ.
- Запустите и обучите самоорганизующиеся карты Кохонена (SOM).
- Столкнетесь с матрицей Кирхгофа и спектральной кластеризацией.
В завершении:
- Изучите поиск аномалий и метрику pAUC.
- Используете тест Смирнова-Граббса на практике.
- Потренируетесь в эллипсоидальной аппроксимации.
- Разберете разницу между LOF и ABOD.
- Обучите и используете модель COPOD.
- Вырастите как iForest, как и расширенный лес изоляции.
Для кого этот курс:
- Аналитики Python, изучающие машинное обучение
- Программисты больших данных
- Исследователи больших данных
https://www.udemy.com/course/ittensive-machine-learning-clustering/