Що нового?

Придбаний [ML/Класс] DSCource 2. Data Mining с помощью Python

Інформація про покупку
Тип покупки: Складчина
Ціна: 4667 ГРН
Учасників: 0 з 95
Організатор: Відсутній
Статус: Набір учасників
Внесок: 51.1 ГРН
0%
Основний список
Резервний список

Gadzhi

Модератор
[ML/Класс] DSCource 2. Data Mining с помощью Python

Юрий Кашницкий, Data Mining с помощью Python
Видео лекций, презентации, ссылки по второму курсу данной серии


"Мы постарались сделать программу так, чтобы в нее входили только самые основные навыки, необходимые в реальной работе. Здесь не будет длинной теории, только практически важные вещи."
  • Юрий Кашницкий, преподаватель Высшей Школы Экономики, умеющий объяснять сложные вещи простым языком, познакомит слушателей сперва с основными инструментами, которые пригодятся начинающему Data Scientist'у, а после проведет курс по машинному обучению, в котором даст необходимые навыки для построения прогнозных моделей
Data Mining (добыча данных, интеллектуальный анализ данных, глубинный анализ данных) – собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности

Kaggle – это платформа для исследователей разных уровней, где они могут опробовать свои модели анализа данных на серьезных и актуальных задачах. Суть такого ресурса – не только в возможности получить неплохой денежный приз в случае, если именно ваша модель окажется лучшей, но и в том (а, это, пожалуй, гораздо важнее), чтобы набраться опыта и стать специалистом в области анализа данных и машинного обучения.


Данный курс освящает практическое применение алгоритмов обработки данных на примере решения одной из самых популярных задач платформы Kaggle, Titanic: Learning from Disaster (предсказание выживших в катастрофе пассажиров)

Урок 1. Введение
  • Введение в машинное обучение, необходимые навыки
  • Задачи классификации, регрессии и кластеризации
  • Краткий обзор Kaggle
  • Открытие соревнования Kaggle Inclass
  • Знакомство с набором данных по автострахованию этого соревнования
  • Статистические распределения, нормализация признаков, приведение к нормальному распределению
  • Деревья решений
  • Применение дерева решений Scikit-learn к набору данных iris и данным из контеста Kaggle Inclass
  • Настройка параметров дерева, кросс-валидация
Урок 2. Обзор инструментов
  • Работа с векторами и матрицами в библиотеке NumPy
  • Обзор библиотеки для научных выичслений SciPy
  • Тетрадки Jupyter (IPython) для презентации материала, содержащего код
  • Визуализация данных с Matplotlib
  • Чтение и обработка данных с библиотекой Pandas
  • Решение задачи соревнования Kaggle "Titanic: Learning from Disaster" c помощью Pandas
  • Обзор библиотеки машинного обучения Scikit-learn
Урок 3. Обучение с учителем. Классификация
  • Работа с признаками – отбор, преобразование, построение
  • Метрики качества алгоритмов машинного обучения (accuracy, precision, recall, F-score). ROC-кривая, AUC
  • Метод максимального правдоподобия
  • Логистическая регрессия
Урок 4. Обучение с учителем. Ансамбли. Переобучение
  • Случайный лес (Random Forest)
  • Случайный лес на примере набора данных Titanic
  • Случайный лес на примере набора данных по автострахованию
  • Бустинг (boosting) и бэггинг (bagging)
  • Сравнение бустинга и бэггинга на наборах данных репозитория UCI
  • Стекинг. Демонстрация решения задачи категоризации продуктов Otto (вкратце)
  • Переобучение, кросс-валидация, регуляризация
  • Пример регуляризации для логистической регрессии
Урок 5. Обучение без учителя
  • Обзор методов кластеризации, снижения размерности, поиска аномалий в данных
  • Кластеризации городов России по социально-экономическим показателям
  • Сингулярное разложение матрицы
  • Пример снижения размерности изображений, сжатие изображений
  • Снижение размерности как способ визуализации даных
  • Решение задачи соревнования Kaggle "Titanic: Learning from Disaster" с помощью Python
Урок 6. Продвинутые методы. API Scikit-learn
  • Нейронные сети, библиотеки nolearn и Lasagne NN
  • Библиотека XGBoost, сравнение с градиентным бустингом в Scikit-learn
  • Пример голосования между алгоритмами для повышения качества классификации
  • Смешивание (блендинг) алгоритмов на примере задачи Kaggle "Titanic: Learning from Disaster"
  • Стекинг. Пример для Titanic
  • Разработка собственного класса Scikit-learn Estimator для задачи по автострахованию Kaggle Inclass. kNN с подобранной метрикой.
Цена инфопродукта - 7000 руб.

Скрытое содержимое.
 
Угорі