Юрій Кашницький, Data Mining за допомогою Python
Відео лекцій, презентації, Посилання по другому курсу даної серії
"Ми постаралися зробити програму так, щоб в неї входили тільки найосновніші навички, необхідні в реальній роботі. Тут не буде довгої теорії, тільки практично важливі речі."
Kaggle-це платформа для дослідників різних рівнів, де вони можуть випробувати свої моделі аналізу даних на серйозних і актуальних завданнях. Суть такого ресурсу-не тільки в можливості отримати непоганий грошовий приз в разі, якщо саме ваша модель виявиться кращою, але і в тому (а, це, мабуть, набагато важливіше), щоб набратися досвіду і стати фахівцем в області аналізу даних і машинного навчання.
даний курс освячує практичне застосування алгоритмів обробки даних на прикладі вирішення однієї з найпопулярніших завдань платформи Kaggle, Titanic: Learning from Disaster (передбачення вижили в катастрофі пасажирів)
Урок 1. Введення
Відео лекцій, презентації, Посилання по другому курсу даної серії
"Ми постаралися зробити програму так, щоб в неї входили тільки найосновніші навички, необхідні в реальній роботі. Тут не буде довгої теорії, тільки практично важливі речі."
- Юрій Кашницький, викладач вищої школи економіки, вміє пояснювати складні речі простою мовою, познайомить слухачів спершу з основними інструментами, які знадобляться початківцю Data Scientistу, а після проведе курс з машинного навчання, в якому дасть необхідні навички для побудови прогнозних моделей
Kaggle-це платформа для дослідників різних рівнів, де вони можуть випробувати свої моделі аналізу даних на серйозних і актуальних завданнях. Суть такого ресурсу-не тільки в можливості отримати непоганий грошовий приз в разі, якщо саме ваша модель виявиться кращою, але і в тому (а, це, мабуть, набагато важливіше), щоб набратися досвіду і стати фахівцем в області аналізу даних і машинного навчання.
даний курс освячує практичне застосування алгоритмів обробки даних на прикладі вирішення однієї з найпопулярніших завдань платформи Kaggle, Titanic: Learning from Disaster (передбачення вижили в катастрофі пасажирів)
Урок 1. Введення
- Введення в Машинне навчання, необхідні навички
- Завдання класифікації, регресії та кластеризації
- Короткий огляд Kaggle
- Відкриття змагання Kaggle Inclass
- Знайомство з набором даних з автострахування цього змагання
- Статистичні розподіли, нормалізація ознак, приведення до нормального розподілу
- Дерева рішень
- Застосування дерева рішень Scikit-learn до набору даних iris і даних з контесту Kaggle Inclass
- Налаштування параметрів дерева, крос-валідація
- Робота з векторами і матрицями в бібліотеці numpy
- Огляд бібліотеки для наукових досліджень SciPy
- Зошити Jupyter (IPython) для презентації матеріалу, що містить код
- Візуалізація даних з Matplotlib
- Читання і обробка даних з бібліотекою Pandas
- Рішення задачі змагання Kaggle "Titanic: Learning from Disaster" c допомогою Pandas
- Огляд бібліотеки машинного навчання Scikit-learn
- Робота з ознаками-відбір, перетворення, побудова
- Метрики якості алгоритмів машинного навчання (accuracy, precision, recall, F-score). ROC-крива, AUC
- Метод максимальної правдоподібності
- Логістична регресія
- Випадковий ліс (Random Forest)
- Випадковий ліс на прикладі набору даних Titanic
- Випадковий ліс на прикладі набору даних з автострахування
- Бустинг (boosting) і беггінг (bagging)
- Порівняння бустингу і беггинга на наборах даних репозиторію UCI
- Стекінг. Демонстрація рішення задачі категоризації продуктів Otto (коротко)
- Перенавчання, крос-валідація, регуляризація
- Приклад регуляризації для логістичної регресії
- Огляд методів кластеризації, зниження розмірності, пошуку аномалій в даних
- Кластеризації міст Росії за соціально-економічними показниками
- Сингулярне розкладання матриці
- Приклад зниження розмірності зображень, стиснення зображень
- Зниження розмірності як спосіб візуалізації даних
- Розв'язання задачі змагання Kaggle "Titanic: Learning from Disaster" за допомогою Python
- Нейронні мережі, бібліотеки nolearn і Lasagne NN
- Бібліотека XGBoost, порівняння з градієнтним прискоренням у Scikit-learn
- Приклад голосування між алгоритмами для підвищення якості класифікації
- Змішування (блендінг) алгоритмів на прикладі задачі Kaggle "Titanic: Learning from Disaster"
- Стекінг. Приклад для Titanic
- Розробка власного класу Scikit-learn Estimator для завдання автострахування Kaggle Inclass. kNN з підібраною метрикою.