Що нового?

Придбаний [OTUS] Pазработчик BigData. Часть 3 из 5

Інформація про покупку
Тип покупки: Складчина
Ціна: 7000 ГРН
Учасників: 0 з 258
Організатор: Відсутній
Статус: Набір учасників
Внесок: 28.2 ГРН
0%
Основний список
Резервний список

Gadzhi

Модератор
[OTUS] Pазработчик BigData. Часть 3 из 5

Разработчик BigData
Ксения Стройкова
В области информационных технологий работает с 2012 года.
Опыт программирования 5 лет. Владеет языками Python (в том числе стек библиотек для научных вычислений), Java (применение на кластере Hadoop). Работает с технологиями MapReduce, Hive, Spark.
Программист в отделе анализа данных в департаменте рекламных технологий Mail.Ru. Занимается разработкой и внедрением процессов и моделей по обработке данных для использования в рекламе.
В настоящее время участвует в разработке хранилища данных для использования в рекламных сервисах, участвует в разработке системы для сегментирования аудиторий.

Преподает курс “Алгоритмы интеллектуальной обработки больших объемов данных” в Техносфере Mail.ru
Закончила Технопарк Mail.Ru
В 2014г. закончила МГТУ им. Н. Э. Баумана по специальности программное обеспечение ЭВМ и Информационные технологии.

Модуль , , 3,



О курсе

В настоящее время каждый сервис или устройство генерируют огромное количество данных. С помощью методов машинного обучения из данных стало возможным извлекать полезные знания. По этой причине данные становятся самым ценным ресурсом в бизнесе, а умение извлекать из данных информацию - одним из самых востребованных умений.

Для того, чтобы внедрять использование данных в бизнесе, необходимо обладать набором специальных знаний и навыков.
Цель курса - освоить темы и инструменты, позволяющие находить полезную информацию в данных и внедрять ее использование в боевое окружение.

В нашем курсе мы научим основам анализа данных: расскажем о преобработке данных, типичных задачах и основных алгоритмах машинного обучения, а также научимся обрабатывать объемы данных, для обработки которых недостаточно одно машины. Все задачи будут проработаны на практике как на учебных, так и на реальных данных. Также будут рассмотрены типичные задачи, встречающиеся в разных видах компаний.

Программа 3го модуля
Чаще всего в окружении, в котором приходится работать, данные не готовы для анализа, у них произвольный формат и много ошибок. Например, это данные из баз знаний, открытых API, данные из различных информационных систем партнеров.В третьем модуле рассматриваются вопросы сбора и очистки данных, разбираются типичные задачи бизнеса. Например, это предсказание ctr, ltv. Дополнительно рассмотрим специальные алгоритмы анализа данных - это работа с временными рядами, рекомендательными системами, текстами, графами.

Занятие 17: Анализ текстовых данных
Сбор данных из открытых источников. Очистка данных, подготовка данных для анализа.Задача обработки текста. Введение, обзор задач, токенизация, лемматизация. Python + sklearn для обработки текстов. Понятие мешка слов, TF.IDF и когда они могут быть нужны, feature selection для NLP.
ДЗ
Реализация процесса сбора данных через API. Преобразование текста, подготовка текста для анализа. Применение машинного обучения для предсказания характеристики в собранных данных

Занятие 18: Анализ текстовых данных
Выделение объектов в тексте (named entity recognition, named entity linking)
Неструктурированные данные. Структурированные данные. Сбор текстов (scraping)
Word2vec для извлечения похожих слов, sentiment analysis

Занятие 19: Рекомендательные системы
Типы рекомендательных систем. Векторное пространство (тот же TF-IDF) и content-based модели, повторение стандартных метрик корреляций: Пирсон, косинусная мера, Джаккарт. Offline метрики и метрики ранжирования. Построение простой content-based модели. Item(user)-based CF. Использование CF для implicit feedback. Построение CF модели (item-based или MF)
ДЗ
Применение алгоритма рекомендаций для датасета фильмов.

Занятие 20: Временные ряды
Что такое временные ряды и простые модели построения прогнозов. Разложение временного ряда на компоненты: тренд, сезонность, цикл, ошибка. Стационарность ряда. Модели класса AR, MA, ARMA, ARIMA. Построение прогноза на примере данных. Модели ARIFMA. Нелинейные модели, библиотека Prophet от Facebook. Векторные модели

Занятие 21: Latent Dirichlet Allocation
ДЗ

Применение LDA для категоризации текстов.

Занятие 22: Алгоритмы на графах
Социальные сети

Занятие 23: Нейронные сети, обучение нейронных сетей
Основы: перцептрон и синапсы, функция активации, примеры задач. Обучение: функция потерь, обратное распространение ошибки, стохастический градиент.
ДЗ
Реализация алгоритма обратного распространения ошибки и применение простой сети на mnist.

Занятие 24: Сверточный слои, каскады, визуализация признаков
Сверточный слои, каскады, визуализация признаков. Нормализация и регуляризация: batchnorm, dropout. Архитектуры нейросетей: обзор архитектур AlexNet, ResNet, GoogLenet.

https://otus.ru/lessons/BigData/
 
Угорі