Що нового?

Придбаний [Beeline] Прикладной анализ данных

Інформація про покупку
Тип покупки: Складчина
Ціна: 50000 ГРН
Учасників: 0 з 18
Організатор: Відсутній
Статус: Набір учасників
Внесок: 2888.9 ГРН
0%
Основний список
Резервний список

Gadzhi

Модератор
Прикладной анализ данных
Интенсивный курс по изучению машинного обучения и анализа данных. Если вы приходите в восторг от слов «дата», «питон», «граф», «ближайшие соседи», «деревья решений», добро пожаловать к нам в школу. А еще вы должны быть знакомы с математической статистикой и иметь опыт программирования на языке Python.

Мы не только читаем лекции, но и решаем реальные бизнес-задачи как на малых, так и больших данных. Практика на каждом занятии.


Количество занятий: 28 занятий
Длительность: 3,5 месяца
Формат обучения: онлайн
Преподаватели: Сергей Марин, Александр Крот и другие
Стоимость курса: 100 000 Р

Занятие - Введение в машинное обучение. Основные типы задач и методы их решения

Теория
  • Введение в машинное обучение, необходимые навыки
  • Задачи классификации, регрессии и кластеризации
  • Извлечение, отбор и преобразование признаков
  • Особенности решения задач машинного обучения
  • Обзор инструментов для решения задач машинного обучения
  • Обзор графовых задач
  • Знания, необходимые для успешного освоения науки о данных
  • Особенности обработки больших данных
  • Workflow решения задач анализа данных
  • Конкретные примеры решения задач анализа данных
Занятие - Библиотеки и инструменты для анализа данных. Математика в машинном обучении

Теория
Математика в машинном обучении: статистические распределения, нормализация признаков, приведение к нормальному распределению, метод максимального правдоподобия, проверка статистических гипотез, методы оптимизации
Работа с векторами и матрицами в библиотеке NumPy
Обзор библиотеки для научных вычислений SciPy
Визуализация данных с Matplotlib и Seaborn
Чтение и обработка данных с библиотекой Pandas

Практика
Визуализация и предварительный анализ данных соревнования Kaggle "Titanic: Machine Learning from Disaster" c помощью Pandas
Первичный анализ данных с Seaborn
Решение задачи соревнования Kaggle "Titanic: Machine Learning from Disaster" c помощью Pandas

Занятие - Семинар. Настройка environment (Anaconda, виртуальная машина). Практика с pandas, numpy, matplotlib, seaborn.

Занятие - Обучение с учителем. Задачи классификации и регрессии

Теория
  • Деревья решений
  • Энтропия, прирост информации и неопределенность Джинни
  • Алгоритмы ID3, C 4.5, CART
  • Работа с признаками – отбор, преобразование, построение
Практика
  • Применение дерева решений Scikit-learn к синтетическому набору данных и кданным соревнования Kaggle Inclass по автострахованию
  • Настройка параметров дерева, кросс-валидация
  • Пример извлечения признака для набора данных соревнования Kaggle Inclass по автострахованию
  • Практика на применение дерева решений и случайного леса к набору данных соревнования "Titanic: Machine Learning fromDisaster"
Занятие - Оценка качества алгоритмов машинного обучения

Теория
  • Обзор библиотеки машинного обучения Scikit-learn
  • Метрики качества алгоритмов машинного обучения - доля (accuracy), точность (precision), полнота (recall), F-score, ROC-кривая, AUC
  • Случай несбалансированных классов
  • Случай классификации на несколько классов
  • Логистическая регрессия
  • Метод опорных векторов (Support Vector Machine), ядра
Практика
  • Сравнение разных методов при решении задачи Kaggle Inclass по предсказанию типа выплат по автостраховке
  • Примеры решения задач классификации и регрессии — наборы данных UCI
Занятие - Семинар. Решение задач классификации с Kaggle. Альтернативные метрики качества алгоритмов классификации.

Занятие - Продвинутые методы классификации и регрессии. Переобучение.
Теория

Теория
- Нейронные сети, алгоритм обратного распространения ошибки
-Построение ансамблей алгоритмов
  • Случайный лес (Random Forest)
  • Бустинг (boosting) и бэггинг (bagging), Xgboost
  • Стекинг
  • Переобучение, кросс-валидация, регуляризация
  • Пример регуляризации для логистической регрессии
Занятие - Продвинутые методы классификации и регрессии. Переобучение.

Практика

Теория
  • Сравнение случайного леса, бустинга и бэггинга на наборах данных репозитория UCI
  • Случайный лес на примере набора данных Titanic
  • Случайный лес на примере набора данных по автострахованию
  • Практика использования библиотек Lasagne NN и Xgboost
  • Разбор решения задачи Kaggle «Otto Group Product Classification
  • Challenge» Станиславом Семеновым и Gilberto Titericz (1 место)
Занятие - Обучение без учителя

Теория
- Введение в обучение без учителя
-Задача кластеризации — алгоритм k-means
  • Иерархическая кластеризация
  • Спектральная кластеризация
  • Плотностные методы кластеризации
  • Методы снижения размерности пространства признаков: кластеризация, метод главных компонент (PCA)
  • Поиск выбросов и аномалий в данных - статистический подход, одноклассовая машина опорных векторов
Практика
- Пример поиска аномалий в данных

Занятие - Семинар. Решение задач классификации и регрессии с Kaggle. Борьба с переобучением.

Занятие - Анализ социальных сетей.
Теория

Теория
  • Введение в теорию графов
  • Классические алгоритмы на графах
  • Поиск в ширину и поиск в глубину
  • Алгоритм PageRank
  • Алгоритмы поиска связных компонент в графе / сильно связных компонент в графе
  • Кластеризация на графах/обнаружение в соц. сетях
Занятие - Анализ социальных сетей. Практика

Практика
  • Применение машинного обучения в графовых задачах
  • Решение задачи рекомендации друзей в социальных сетях (Link Prediction)
  • Введение в случайные и веб-графы и как они помогают на практике в реальных задачах
  • Обзор инструментов для работы с графами
Занятие - Семинар. Решение алгоритмических задач на графах.

Занятие - Обнаружение знаний в данных

Теория
  • Поиск частых множеств (товаров) и ассоциативные правила
  • Алгоритмы Apriori и FP-growth
  • Поиск частых, сильно разделяющих паттернов (frequent diverse patterns и emerging patterns)
  • Поиск паттернов с ограничениями
  • Поиск частых последовательностей
  • Поиск частых подграфов
Практика
  • Знакомство с инструментом SPMF
  • Анализ последовательностей на примере демографических данных
Занятие - Рекомендательные системы

Теория
  • Введение в коллаборативную фильтрацию
  • Item-Based и User-Based подходы к задаче рекомендации. Выбор меры сходства
  • Оценка качества рекомендательной системы
  • Рекомендации на основе ассоциативных правил
  • Методы на основе матричной факторизации (SVD, PLSA, LDA, BMF)
-Мультимодальная кластеризация и рекомендации в фолксономиях

Практика
- Case-study: рекомендация радиостанций

Занятие - Семинар. Разработка собственной рекомендательной системы кинофильмов. Решение проблемы холодного старта, разработка метрик качества алгоритмов рекомендации.

Занятие - Обработка текстов.
Теория

Теория
  • Задачи обработки естественного языка (NLP)
  • Предобработка текстов: лемматизация, стемминг, синтаксический и морфологический анализ
  • Модели представления текстов: мешок слов, VSM, синтаксические деревья
  • Современные методы: word2vec, topic modeling
Занятие - Обработка текстов. Практика

Практика
  • Поиск ключевых слов
  • Определение сходства документов
  • Кластеризация текстов
  • Поиск похожих слов
Занятие - Семинар. Подробный обзор библиотеки NLTK, решение задач с Kaggle.

Занятие - Введение в анализ больших данных и масштабируемое машинное обучение.
Теория

Теория
  • Машинное обучение: подход MapReduce, онлайн-обучение
  • Стохастический градиентный спуск
  • Концепция вычислений в памяти и устойчивых распределенных наборов данных (RDD)
  • Обзор инструмента Apache Spark
  • Введение в функциональное программирование (map, filter, reduce, lambda-функции)
  • Обзор библиотек MLlib и GraphX Apache Spark
  • Коллаборативная фильтрация с Apache Spark
Занятие - Введение в анализ больших данных и масштабируемое машинное обучение. Практика
Практика
  • Практика использования функций map, filter, reduce и lambda-функций
  • Практика использования методов работы с устойчивыми распределенными наборами данных (RDD)
  • Анализ веб-логов с Apache Spark
  • Пример построения рекомендательной системы фильмов с Apache Spark MLlib на данных MovieLens.
  • Пример решения задачи классификации со Spark MLlib
  • Предсказание кликов пользователей с Apache Spark
Занятие - Альтернатива большим данным. Large Scale Machine Learning. Обзор инструмента vowpal wabbit.
Теория и практика

Теория
  • Что делать, если мало оперативной памяти
  • Введение в онлайн обучение
  • Метрики качества - progressive loss
  • Выбор функции потерь
  • Hashing trick
  • Подбор параметров регуляризации при он-лайн-обуяении
  • Дообучение алгоритмов
Практика
  • Обзор инструмента vowpal wabbit
  • Пример решения задачи в 2 строки с помощью vowpal wabbit
  • Обзор нестандартных параметров vw
Занятие - Семинар. Практика с Apache Spark, разбор альтернативных методов работы с большими данными.

Занятие - Соревнования по анализу данных.
Теория

Теория
  • Обзор платформы Kaggle
  • Зачем нужны соревнования по анализу данных
  • Особенности задач в соревнованиях по машинному обучению
  • Отличия задач соревнований по анализу данных от реальных бизнес-задач
  • Решение задачи Kaggle «Driver Telematics Analysis» по определению профиля вождения водителя
Занятие - Соревнования по анализу данных. Практика

Практика
  • Работа с категориальными признаками, различные подходы
  • Решение задачи Kaggle «Caterpillar Tube Pricing» по предсказанию цены на конструкцию из труб
Занятие - Семинар. Разбор нестандартных задач с Kaggle.

Занятие - Deep Learning.

Теория и практика
  • Введение в нейронные сети
  • Обзор возможностей нейронных сетей
  • Задачи обработки текстов
  • Задачи обработки изображений и видео (Computer Vision)
  • Инструменты (Theano, TensorFlow, Keras)
  • Разбор классических задач Deep Learning
Занятие - Продуктовая аналитика.

Теория и практика
  • Тестирование гипотез в продуктовой аналитике
  • Маркетинговые метрики качества алгоритмов машинного обучения
  • Оценка экономического эффекта моделей
  • Основные B2C метрики: CAC, LT, LTV, ARPU, ARPPU
  • Модели машинного обучения в CRM
Скрытое содержимое.
http://bigdata.beeline.digital/

Также приглашаю Вас принять участие в складчине на подготовительный курс для аналитиков от этой же конторы, он ведется для тех, кому нужно подготовиться к прохождению основного курса, на который мы собираемся здесь

Подготовительный курс

 
Угорі