Data Science c экспертом от Сбербанка [Skill-Branch] [Часть 1]
Онлайн-курс с экспертом от СберБанка
Data Science
Онлайн-курс с экспертом от СберБанка
Data Science
01.Введение в машинное обучение
09. Градиентный бустинг
- - Что такое машинное обучение?
- - Для чего используется машинное обучение?
- - Какие типы задач можно решать с помощью машинного обучения?
- - Основные проблемы машинного обучения
- - Почему будем использовать python?
- - Обзор основных инструментов и библиотек (Jupyter Notebook, sklearn, NumPy, SciPy, matplotlib, pandas).
- - типы данных
- - ссылки на объекты
- - коллекции данных
- - логические операции
- - инструкции управления потоком выполнения
- - арифметические операторы
- - ввод / вывод
- - создание и вызов функций
- Работа с объектами в Python, написание функций для работы с данными
- - функция
- - производная, частная производная, градиент функции
- - теория вероятности: основные определения
- - определение вероятности, вычисление вероятностей сложных событий
- - распределение вероятностей, независимые и зависимые переменные
- - генеральные совокупности и выборки
- - центральная предельная теорема
- - меры центральной тенденции, меры разброса
- - выбросы
- реализация указанных математических сущностей на Python
- - введение в массивы библиотеки NumPy
- - выполнение вычислений над массивами NumPy
- - сравнения, макси и булева логика в NumPy
- - сортировка массивов NumPy
- - введение в библиотеку pandas
- - операции над данными в библиотеке pandas
- - объединение наборов данных: конкатенация, слияние и соединение
- - агрегирование и группировка в pandas
- - сводные таблицы в pandas
- - векторизованные операции и методы повышения производительности pandas
- - визуализация данных с помощью matplotlib
- - линейные графики и диаграммы рассеяния в matplotlib
- - графики плотности, гистограммы в matplotlib
- - настройка легенды на графикам, тексты и поясняющие надписи
- - множественные графики
- векторные вычисление с помощью NumPy, операции над векторами и матрицами, анализ данных с помощью pandas, вычисление основных статистик, фильтрация и отбор данных с помощью pandas, визуализация данных с помощью matplotlib / seaborn
- - измерение ошибки в задачах регрессии
- - обучение линейной регрессии
- - градиентный спуск и модификация градиентного спуска
- - интерпретация коэффициентов линейной регрессии
- - подготовка данных для линейной модели
- - оценка качества моделей
- - регуляризация линейной модели и гиперпараметры
- реализация метрик качества для задачи регрессии, анализ их слабых и сильных сторон, реализация классического решения для модели линейной регрессии, реализация алгоритма градиентного спуска, визуализация траекторий градиентного спуска и стохастического градиентного спуска, сравнение скорости схождения алгоритма градиентного спуска и стохастического градиентного спуска, реализация L1, L2 регуляризации для линейной модели. Опционально: реализация более сложных методов оптимизации для поиска решения линейной регрессии.
- - измерение ошибки в задачах бинарной классификации
- - оценивание вероятностей
- - переобучение, кривые обучения, кривые валидации
- - интерпретация коэффициентов логистической регрессии
- - границы решения
- реализация метрик качества для задачи классификации, анализ их слабых и сильных сторон, реализация модели логистической регрессии, построение и анализ кривых обучения и валидационных кривых. Применение модели логистической регрессии для реальных данных, оценка качества модели. Реализация собственных элементов пайплайнов, объединение элементов предобработки данных и обучения модели в единый пайплайн.
- самостоятельная реализация модели логистической регрессии.
- - обучение и визуализация дерева принятия решений
- - применение дерева для получения прогнозов
- - оценивание вероятностей классов
- - оценивание непрерывной величины
- - алгоритм обучения CART
- - вычислительная сложность деревьев решений
- - выбор критериев разбиения
- - гиперпараметры, регуляризация, неустойчивость деревьев решений
- обучение решающих деревьев для задачи классификации и регрессии, сравнение критериев информативностей деревьев решений, сравнение критериев останова деревьев решений, визуализация плоскостей решения при различных значениях гиперпараметров деревьев решений, сравнение способов регуляризации деревьев решений на практике. Сравнение решающих деревьев с линейными моделями, сравнение качества решения и устойчивости решения.
- самостоятельная реализация модели решающего дерева для задачи классификации и регрессии.
- - разложение ошибки на смещение и дисперсию
- - бутстрап, бэггинг, out-of-bag ошибка
- - метод случайных подпространств
- - случайный лес
- - экстремально случайные деревья
- - работа с текстовыми данными
- - оценка важности признаков
- самостоятельная реализация модели бэггинга с использованием решающих деревьев и линейных моделей. Векторизоация текстовых данных, использования TF-IDF для текстовых данных. Использование лемматизации и стемминга для улучшения качества текстовых данных. Использование модели случайного леса и линейных моделей для работы с текстовыми данными. Использование методов для оценки важности признаков для модели случайного леса.
09. Градиентный бустинг
- - бустинг как направленная композиция алгоритмов
- - AdaBoost
- - XGBoost
- - LightGBM
- - CatBoost
- сравнение градиетного бустинга и случайного леса, анализ смещения и дисперсии модели градиетного бустинга, Сравнение реализация алгоритма градиентного бустинга (AdaBoost, XGBoost, LightGBM, CatBoost) на задачах бинарной классификации и регрессии.
- - Встроенные методы оценки важности признаков, + / -
- - Оценка важности признаков на основе перестановок
- - SHAP для оценки важности признаков и интерпретации blackbox-моделей
- - Проблема проклятия размерности
- - PCA для снижения размерности
- - Анализ главных компонент
- использование встроенных методов оценки важности признаков для линейных моделей, решающих деревьев, случайного леса и градиентного бустинга, анализ их плюсов и минусов. Использование универсальных методов оценки важности, анализ их преимуществ перед встроенными методами оценки важности признаков, отбора признаков. Использование SHAP, PCA для отбора признаков.
- - [опциональная лекция]
- - распределение вероятностей
- - независимые и зависимые переменные
- - проверка гипотез
- - доверительные интервалы
- - p-value, z-статистика
- - проверка гипотез с помощью t - критерия
- - проверка гипотез для долей
- моделирование распределения вероятностей с помощью python, проверка одновыборочных гипотез, двухвыбороных гипотез для независимых выборок и двухвыборочных гипотез для зависимых выборок с помощью python.
- - работа с реальными данными
- - постановка задачи
- - получение данных
- - обнаружение и визуализация данных для понимания их сущности
- - подготовка данных для алгоритмов машинного обучения
- - выбор и обучение модели
- - настройка гиперпараметров модели
- - анализ ошибок / поиск возможностей для улучшения качества модели
- - проверка модели на реальных данных
- - запуск и сопровождение модели
Продажник