Що нового?

Придбаний [OTUS] Pазработчик BigData. Часть 4 из 5

Інформація про покупку
Тип покупки: Складчина
Ціна: 7000 ГРН
Учасників: 0 з 222
Організатор: Відсутній
Статус: Набір учасників
Внесок: 32.8 ГРН
0%
Основний список
Резервний список

Gadzhi

Модератор
[OTUS] Pазработчик BigData. Часть 4 из 5

Разработчик BigData
Ксения Стройкова
В области информационных технологий работает с 2012 года.
Опыт программирования 5 лет. Владеет языками Python (в том числе стек библиотек для научных вычислений), Java (применение на кластере Hadoop). Работает с технологиями MapReduce, Hive, Spark.
Программист в отделе анализа данных в департаменте рекламных технологий Mail.Ru. Занимается разработкой и внедрением процессов и моделей по обработке данных для использования в рекламе.
В настоящее время участвует в разработке хранилища данных для использования в рекламных сервисах, участвует в разработке системы для сегментирования аудиторий.

Преподает курс “Алгоритмы интеллектуальной обработки больших объемов данных” в Техносфере Mail.ru
Закончила Технопарк Mail.Ru
В 2014г. закончила МГТУ им. Н. Э. Баумана по специальности программное обеспечение ЭВМ и Информационные технологии.

Модуль , , , 4



О курсе


В настоящее время каждый сервис или устройство генерируют огромное количество данных. С помощью методов машинного обучения из данных стало возможным извлекать полезные знания. По этой причине данные становятся самым ценным ресурсом в бизнесе, а умение извлекать из данных информацию - одним из самых востребованных умений.

Для того, чтобы внедрять использование данных в бизнесе, необходимо обладать набором специальных знаний и навыков.
Цель курса - освоить темы и инструменты, позволяющие находить полезную информацию в данных и внедрять ее использование в боевое окружение.

В нашем курсе мы научим основам анализа данных: расскажем о преобработке данных, типичных задачах и основных алгоритмах машинного обучения, а также научимся обрабатывать объемы данных, для обработки которых недостаточно одно машины. Все задачи будут проработаны на практике как на учебных, так и на реальных данных. Также будут рассмотрены типичные задачи, встречающиеся в разных видах компаний.

Программа 4го модуля
Большую часть времени любого разработчика процессов анализа данных занимает разработка самого процесса по преобразованию данных на разных этапах. Предполагаются этапы сбора, очистки, агрегации данных, построения модели и предсказания характеристик.
В четвертом модуле рассматриваются возможности построения надежных процессов преобразования данных.В более крупных компаниях данные превышают возможности одной типичной разработческой машины. Появляется потребность работы с алгоритмами, обрабатывающими данные в потоке, а также с кластером.
В четвертом модуле разбираются процессы преобразования данных, слои данных, потоки данных и различные способы хранения и преобразования таких данных на кластере. Разберем возможности построения моделей на кластере. К концу модуля слушатели смогут уверенно использовать стек технологий Hadoop: писать задачи на MapReduce с использованием Java или Hadoop Streaming, использовать Hive и Spark для быстрого преобразования данных, расчета статистик, построения моделей на кластере.

Занятие 25: Процесс CRISP-DM. Выбор хранилища, запросы к базе (Реляционная, нереляционная). Большие данные и параллельные вычисления.
Кластер, hdfs, запросы к hdfs. Map Reduce, Java, Python, Необходимость в кластерных вычислениях. Парадигма MapReduce. Инструменты работы с большими данными. Hadoop, Spark, обзор других компонентов экосистемы. Развертывание кластера Hadoop локально для выполнения учебных примеров. Выполнение учебных примеров на кластере.
ДЗ
Настройка окружения для локальной работы с кластером. Выполнение на локальном кластере набора учебных задач.

Занятие 26: Vowpal Wabbit для обучения линейных моделей на одной машине

Занятие 27: MapReduce на Java, Hadoop Streaming - MapReduce на Python, bash
ДЗ

Реализация алгоритма с использованием MapReduce.

Занятие 28: Пайплайны. Способы выстроить поток задач, обеспечить выполнение. Отказоустойчивость, мониторинг.

Занятие 29: Слои данных для оптимизации процессов использования данных. Hive.
ДЗ

Реализация алгоритма с использованием Hive.

Занятие 30: Организация хранения данных для решения задач машинного обучения

Занятие 31: Spark

Spark как инструмент быстрого доступа к данным. Spark как инструмент для машинного обучения.
ДЗ
Реализация алгоритма с использованием Spark.

Занятие 32: Обзор решений для аналитики больших данных
Vertica, Clickhouse. Основные преимущества и недостатки, для хранения и обработки данных.
Агрегация, управление, эксперименты, анализ, визуализация и BI

https://otus.ru/lessons/BigData/
 
Угорі