Набір учасників Discourse 2. Data Mining за допомогою Python (Юрій Кашницький)

Gadzhi · Січ 2, 2023

Юрій Кашницький, Data Mining за допомогою Python
Відео лекцій, презентації, Посилання по другому курсу даної серії

"Ми постаралися зробити програму так, щоб в неї входили тільки найосновніші навички, необхідні в реальній роботі. Тут не буде довгої теорії, тільки практично важливі речі."

Юрій Кашницький, викладач вищої школи економіки, вміє пояснювати складні речі простою мовою, познайомить слухачів спершу з основними інструментами, які знадобляться початківцю Data Scientistу, а після проведе курс з машинного навчання, в якому дасть необхідні навички для побудови прогнозних моделей

Data Mining (видобуток даних, Інтелектуальний аналіз даних, глибинний аналіз даних) – збірна назва, що використовується для позначення сукупності методів виявлення в даних раніше невідомих, нетривіальних, практично корисних і доступних інтерпретації знань, необхідних для прийняття рішень в різних сферах людської діяльності

Kaggle-це платформа для дослідників різних рівнів, де вони можуть випробувати свої моделі аналізу даних на серйозних і актуальних завданнях. Суть такого ресурсу-не тільки в можливості отримати непоганий грошовий приз в разі, якщо саме ваша модель виявиться кращою, але і в тому (а, це, мабуть, набагато важливіше), щоб набратися досвіду і стати фахівцем в області аналізу даних і машинного навчання.

даний курс освячує практичне застосування алгоритмів обробки даних на прикладі вирішення однієї з найпопулярніших завдань платформи Kaggle, Titanic: Learning from Disaster (передбачення вижили в катастрофі пасажирів)
Урок 1. Введення

Введення в Машинне навчання, необхідні навички

Завдання класифікації, регресії та кластеризації

Короткий огляд Kaggle

Відкриття змагання Kaggle Inclass

Знайомство з набором даних з автострахування цього змагання

Статистичні розподіли, нормалізація ознак, приведення до нормального розподілу

Дерева рішень

Застосування дерева рішень Scikit-learn до набору даних iris і даних з контесту Kaggle Inclass

Налаштування параметрів дерева, крос-валідація

Урок 2. Огляд інструментів

Робота з векторами і матрицями в бібліотеці numpy

Огляд бібліотеки для наукових досліджень SciPy

Зошити Jupyter (IPython) для презентації матеріалу, що містить код

Візуалізація даних з Matplotlib

Читання і обробка даних з бібліотекою Pandas

Рішення задачі змагання Kaggle "Titanic: Learning from Disaster" c допомогою Pandas

Огляд бібліотеки машинного навчання Scikit-learn

Урок 3. Навчання з учителем. Класифікація

Робота з ознаками-відбір, перетворення, побудова

Метрики якості алгоритмів машинного навчання (accuracy, precision, recall, F-score). ROC-крива, AUC

Метод максимальної правдоподібності

Логістична регресія

Урок 4. Навчання з учителем. Ансамбль. Перенавчання

Випадковий ліс (Random Forest)

Випадковий ліс на прикладі набору даних Titanic

Випадковий ліс на прикладі набору даних з автострахування

Бустинг (boosting) і беггінг (bagging)

Порівняння бустингу і беггинга на наборах даних репозиторію UCI

Стекінг. Демонстрація рішення задачі категоризації продуктів Otto (коротко)

Перенавчання, крос-валідація, регуляризація

Приклад регуляризації для логістичної регресії

Урок 5. Навчання без вчителя

Огляд методів кластеризації, зниження розмірності, пошуку аномалій в даних

Кластеризації міст Росії за соціально-економічними показниками

Сингулярне розкладання матриці

Приклад зниження розмірності зображень, стиснення зображень

Зниження розмірності як спосіб візуалізації даних

Розв'язання задачі змагання Kaggle "Titanic: Learning from Disaster" за допомогою Python

Урок 6. Просунуті методи. API Scikit-learn

Нейронні мережі, бібліотеки nolearn і Lasagne NN

Бібліотека XGBoost, порівняння з градієнтним прискоренням у Scikit-learn

Приклад голосування між алгоритмами для підвищення якості класифікації

Змішування (блендінг) алгоритмів на прикладі задачі Kaggle "Titanic: Learning from Disaster"

Стекінг. Приклад для Titanic

Розробка власного класу Scikit-learn Estimator для завдання автострахування Kaggle Inclass. kNN з підібраною метрикою.

Пошук

Пошук

Набір учасників Discourse 2. Data Mining за допомогою Python (Юрій Кашницький)

Gadzhi

Модератор