[OTUS] Pазработчик BigData. Часть 2 из 5
Разработчик BigData
Ксения Стройкова
В области информационных технологий работает с 2012 года.
Опыт программирования 5 лет. Владеет языками Python (в том числе стек библиотек для научных вычислений), Java (применение на кластере Hadoop). Работает с технологиями MapReduce, Hive, Spark.
Программист в отделе анализа данных в департаменте рекламных технологий Mail.Ru. Занимается разработкой и внедрением процессов и моделей по обработке данных для использования в рекламе.
В настоящее время участвует в разработке хранилища данных для использования в рекламных сервисах, участвует в разработке системы для сегментирования аудиторий.
Преподает курс “Алгоритмы интеллектуальной обработки больших объемов данных” в Техносфере Mail.ru
Закончила Технопарк Mail.Ru
В 2014г. закончила МГТУ им. Н. Э. Баумана по специальности программное обеспечение ЭВМ и Информационные технологии.
Модуль , 2, ,
О курсе
В настоящее время каждый сервис или устройство генерируют огромное количество данных. С помощью методов машинного обучения из данных стало возможным извлекать полезные знания. По этой причине данные становятся самым ценным ресурсом в бизнесе, а умение извлекать из данных информацию - одним из самых востребованных умений.
Для того, чтобы внедрять использование данных в бизнесе, необходимо обладать набором специальных знаний и навыков.
Цель курса - освоить темы и инструменты, позволяющие находить полезную информацию в данных и внедрять ее использование в боевое окружение.
В нашем курсе мы научим основам анализа данных: расскажем о преобработке данных, типичных задачах и основных алгоритмах машинного обучения, а также научимся обрабатывать объемы данных, для обработки которых недостаточно одно машины. Все задачи будут проработаны на практике как на учебных, так и на реальных данных. Также будут рассмотрены типичные задачи, встречающиеся в разных видах компаний.
Программа 2го модуля
От сгенерированных данных переходим к данным в табличном виде. Такие данные встречаются в конкурсах по анализу данных, а также могут быть собраны, например, напрямую из баз данных. Для применения алгоритмов машинного обучения обычно такие данные требуют дополнительных преобразований.Во втором модуле рассматриваются задачи преобразования и отбора признаков, вопросы подготовки данных для использования в машинном обучении.Также будут рассмотрены более сложные алгоритмы в анализе данных - понижение размерности, определение выбросов в данных, построение ансамблей моделей.
Занятие 9: Feature engineering
Feature engineering. Статистический анализ данных, выбор фич на основе корреляции.
ДЗ
Преобразование набора данных и подбор фич.
Занятие 10: Поиск выбросов в данных
Занятие 11: Уменьшение размерности
Principle component analysis, t-sne. Поиск подмножества фич (subset selection).
ДЗ
Применение снижения размерности для использования в модели.
Занятие 12: Методы оптимизации
SGD, модификации SGD
Занятие 13: Деревья решений
Ограничения и недостатки деревьев решений. Классификация и регрессия с помощью деревьев решений. Выбор оптимального сплита, суррогатный сплит.
ДЗ
Реализация алгоритма дерева решений на простых данных. Реализация некоторых эвристик в деревьях решений.
Занятие 14: Ансамбли моделей
Случайный лес. Обзор методов ансамблирования: бустинг, бэггинг, стекинг, случайные подпространства.
Занятие 15: Бустинг
Xgboost, catboost, lightgbm, Стекинг, блендинг
ДЗ
Применение бустинга для построения лучшей модели.
Занятие 16: SVM, Support vector machine
Разделяющая поверхность с максимальным зазором. Формулировка задачи оптимизации для случаев линейно-разделимых и линейно-неразделимых классов. Сопряженная задача. Опорные векторы. SVM для задач классификации и регрессии. Kernel trick. Теорема Мерсера. Примеры функций ядра.
Разработчик BigData
Ксения Стройкова
В области информационных технологий работает с 2012 года.
Опыт программирования 5 лет. Владеет языками Python (в том числе стек библиотек для научных вычислений), Java (применение на кластере Hadoop). Работает с технологиями MapReduce, Hive, Spark.
Программист в отделе анализа данных в департаменте рекламных технологий Mail.Ru. Занимается разработкой и внедрением процессов и моделей по обработке данных для использования в рекламе.
В настоящее время участвует в разработке хранилища данных для использования в рекламных сервисах, участвует в разработке системы для сегментирования аудиторий.
Преподает курс “Алгоритмы интеллектуальной обработки больших объемов данных” в Техносфере Mail.ru
Закончила Технопарк Mail.Ru
В 2014г. закончила МГТУ им. Н. Э. Баумана по специальности программное обеспечение ЭВМ и Информационные технологии.
Модуль , 2, ,
О курсе
В настоящее время каждый сервис или устройство генерируют огромное количество данных. С помощью методов машинного обучения из данных стало возможным извлекать полезные знания. По этой причине данные становятся самым ценным ресурсом в бизнесе, а умение извлекать из данных информацию - одним из самых востребованных умений.
Для того, чтобы внедрять использование данных в бизнесе, необходимо обладать набором специальных знаний и навыков.
Цель курса - освоить темы и инструменты, позволяющие находить полезную информацию в данных и внедрять ее использование в боевое окружение.
В нашем курсе мы научим основам анализа данных: расскажем о преобработке данных, типичных задачах и основных алгоритмах машинного обучения, а также научимся обрабатывать объемы данных, для обработки которых недостаточно одно машины. Все задачи будут проработаны на практике как на учебных, так и на реальных данных. Также будут рассмотрены типичные задачи, встречающиеся в разных видах компаний.
Программа 2го модуля
От сгенерированных данных переходим к данным в табличном виде. Такие данные встречаются в конкурсах по анализу данных, а также могут быть собраны, например, напрямую из баз данных. Для применения алгоритмов машинного обучения обычно такие данные требуют дополнительных преобразований.Во втором модуле рассматриваются задачи преобразования и отбора признаков, вопросы подготовки данных для использования в машинном обучении.Также будут рассмотрены более сложные алгоритмы в анализе данных - понижение размерности, определение выбросов в данных, построение ансамблей моделей.
Занятие 9: Feature engineering
Feature engineering. Статистический анализ данных, выбор фич на основе корреляции.
ДЗ
Преобразование набора данных и подбор фич.
Занятие 10: Поиск выбросов в данных
Занятие 11: Уменьшение размерности
Principle component analysis, t-sne. Поиск подмножества фич (subset selection).
ДЗ
Применение снижения размерности для использования в модели.
Занятие 12: Методы оптимизации
SGD, модификации SGD
Занятие 13: Деревья решений
Ограничения и недостатки деревьев решений. Классификация и регрессия с помощью деревьев решений. Выбор оптимального сплита, суррогатный сплит.
ДЗ
Реализация алгоритма дерева решений на простых данных. Реализация некоторых эвристик в деревьях решений.
Занятие 14: Ансамбли моделей
Случайный лес. Обзор методов ансамблирования: бустинг, бэггинг, стекинг, случайные подпространства.
Занятие 15: Бустинг
Xgboost, catboost, lightgbm, Стекинг, блендинг
ДЗ
Применение бустинга для построения лучшей модели.
Занятие 16: SVM, Support vector machine
Разделяющая поверхность с максимальным зазором. Формулировка задачи оптимизации для случаев линейно-разделимых и линейно-неразделимых классов. Сопряженная задача. Опорные векторы. SVM для задач классификации и регрессии. Kernel trick. Теорема Мерсера. Примеры функций ядра.
https://otus.ru/lessons/BigData/