Що нового?

Набір учасників Discourse 2. Data Mining за допомогою Python (Юрій Кашницький)

Інформація про покупку
Тип покупки: Складчина
Ціна: 2574 ГРН
Учасників: 0 з 28
Організатор: Відсутній
Статус: Набір учасників
Внесок: 95.6 ГРН
0%
Основний список
Резервний список

Gadzhi

Модератор
Юрій Кашницький, Data Mining за допомогою Python
Відео лекцій, презентації, Посилання по другому курсу даної серії


"Ми постаралися зробити програму так, щоб в неї входили тільки найосновніші навички, необхідні в реальній роботі. Тут не буде довгої теорії, тільки практично важливі речі."
  • Юрій Кашницький, викладач вищої школи економіки, вміє пояснювати складні речі простою мовою, познайомить слухачів спершу з основними інструментами, які знадобляться початківцю Data Scientistу, а після проведе курс з машинного навчання, в якому дасть необхідні навички для побудови прогнозних моделей
Data Mining (видобуток даних, Інтелектуальний аналіз даних, глибинний аналіз даних) – збірна назва, що використовується для позначення сукупності методів виявлення в даних раніше невідомих, нетривіальних, практично корисних і доступних інтерпретації знань, необхідних для прийняття рішень в різних сферах людської діяльності

Kaggle-це платформа для дослідників різних рівнів, де вони можуть випробувати свої моделі аналізу даних на серйозних і актуальних завданнях. Суть такого ресурсу-не тільки в можливості отримати непоганий грошовий приз в разі, якщо саме ваша модель виявиться кращою, але і в тому (а, це, мабуть, набагато важливіше), щоб набратися досвіду і стати фахівцем в області аналізу даних і машинного навчання.

даний курс освячує практичне застосування алгоритмів обробки даних на прикладі вирішення однієї з найпопулярніших завдань платформи Kaggle, Titanic: Learning from Disaster (передбачення вижили в катастрофі пасажирів)
Урок 1. Введення
  • Введення в Машинне навчання, необхідні навички
  • Завдання класифікації, регресії та кластеризації
  • Короткий огляд Kaggle
  • Відкриття змагання Kaggle Inclass
  • Знайомство з набором даних з автострахування цього змагання
  • Статистичні розподіли, нормалізація ознак, приведення до нормального розподілу
  • Дерева рішень
  • Застосування дерева рішень Scikit-learn до набору даних iris і даних з контесту Kaggle Inclass
  • Налаштування параметрів дерева, крос-валідація
Урок 2. Огляд інструментів
  • Робота з векторами і матрицями в бібліотеці numpy
  • Огляд бібліотеки для наукових досліджень SciPy
  • Зошити Jupyter (IPython) для презентації матеріалу, що містить код
  • Візуалізація даних з Matplotlib
  • Читання і обробка даних з бібліотекою Pandas
  • Рішення задачі змагання Kaggle "Titanic: Learning from Disaster" c допомогою Pandas
  • Огляд бібліотеки машинного навчання Scikit-learn
Урок 3. Навчання з учителем. Класифікація
  • Робота з ознаками-відбір, перетворення, побудова
  • Метрики якості алгоритмів машинного навчання (accuracy, precision, recall, F-score). ROC-крива, AUC
  • Метод максимальної правдоподібності
  • Логістична регресія
Урок 4. Навчання з учителем. Ансамбль. Перенавчання
  • Випадковий ліс (Random Forest)
  • Випадковий ліс на прикладі набору даних Titanic
  • Випадковий ліс на прикладі набору даних з автострахування
  • Бустинг (boosting) і беггінг (bagging)
  • Порівняння бустингу і беггинга на наборах даних репозиторію UCI
  • Стекінг. Демонстрація рішення задачі категоризації продуктів Otto (коротко)
  • Перенавчання, крос-валідація, регуляризація
  • Приклад регуляризації для логістичної регресії
Урок 5. Навчання без вчителя
  • Огляд методів кластеризації, зниження розмірності, пошуку аномалій в даних
  • Кластеризації міст Росії за соціально-економічними показниками
  • Сингулярне розкладання матриці
  • Приклад зниження розмірності зображень, стиснення зображень
  • Зниження розмірності як спосіб візуалізації даних
  • Розв'язання задачі змагання Kaggle "Titanic: Learning from Disaster" за допомогою Python
Урок 6. Просунуті методи. API Scikit-learn
  • Нейронні мережі, бібліотеки nolearn і Lasagne NN
  • Бібліотека XGBoost, порівняння з градієнтним прискоренням у Scikit-learn
  • Приклад голосування між алгоритмами для підвищення якості класифікації
  • Змішування (блендінг) алгоритмів на прикладі задачі Kaggle "Titanic: Learning from Disaster"
  • Стекінг. Приклад для Titanic
  • Розробка власного класу Scikit-learn Estimator для завдання автострахування Kaggle Inclass. kNN з підібраною метрикою.
 
Угорі