Data Engineering [2021]
robot dreams
Антон Бондарь
Начните путь в Data Engineering уже сейчас.
Вы детально изучите все этапы обработки данных и разберете необходимые инструменты для работы с ними, научитесь строить ETL-системы и проектировать хранилища данных.
Пройдите курс DE и вы сможете
- Хранить и обрабатывать огромные массивы данных.
- Освоить инструменты Hadoop, Apache Airflow, Apache Spark, SparkSQL, HDFS и MapReduce.
- Строить собственные Data Platform, которые способны масштабироваться.
- Овладеть профессией, актуальной через 5-10-15 лет.
- Повысить свою квалификацию и уровень дохода.
1. Data Scientist/ Data Analyst
Вы углубите знания в работе с данными, научитесь строить пайплайны, хранилища, обрабатывать и эффективнее анализировать данные.
2. Software/SQL/ ETL DeveloperВы усилите свои компетенции по работе с данными, научитесь самостоятельно строить системы хранения и обработки данных.
3. Data Engineer (beginner)Вы углубите знания в работе с данными, научитесь строить пайплайны, хранилища, обрабатывать и эффективнее анализировать данные.
СодержаниеМодуль 1 - Введение в Data Engineering
- Узнайте всё, что вы хотели о профессии Data Engineer: цели, направления, задачи, обязанности и функция в команде.
- Сравните Data Engineer vs Big Data Engineer.
- Ознакомьтесь с технологиями, с которыми вы будете работать во время курса.
- Поймите, какие задачи решает конкретная Big Data технология.
- Научитесь работать с разными структурами данных: string, list, tuple, set, dictionary.
- Начните загружать данные из внешних источников с помощью Python.
- Узнайте специфику работы с модулями Python: import и relative import модулей.
- Узнайте, для чего используется SQL в Big Data.
- Научитесь объединять наборы данных при помощи SQL: JOIN, UNION, EXCEPT.
- Начните использовать SQL для аналитических запросов: аналитические функции, группирование данных, оконные функции.
- Поймите, как писать быстро-выполняющийся SQL.
- Выявите различия между OLTP и OLAP системами.
- Поймите техническую реализацию системы управления баз данных, предназначенных для аналитики.
- Научитесь описывать структуру базы данных при помощи ER-модели для ее будущего конструирования (Crow’s foot notation).
- Узнайте, какое назначение хранилищ данных и какие существуют подходы к их проектированию.
- Научитесь проектировать (строить) хранилища данных.
- Освойте навык “представление данных в виде витрин”.
- Разберите примеры существующих хранилищ данных.
- Спроектируйте ETL решение.
- Поймите, как передавать данные между системами.
- Научитесь извлекать данные из внешних источников, трансформировать и очищать.
- Научитесь создавать, запускать и мониторить ETL при помощи Apache Airflow.
- Начните описывать ETL процессы, используя Directed Acyclic Graph.
- Напишите свой оператор Airflow для доступа к API.
- Подключитесь к внешним источникам данных с помощью Apache Airflow.
- Разберитесь с понятием распределенных систем и вычислений.
- Узнайте, какие задачи они решают и какие готовые решения уже существуют.
- Выявите отличия распределенных систем от обычных, разберите их преимущества и недостатки.
- Поймите, что означают свойства распределенных систем и ограничения распределенных систем в САР-теореме для вашей работы.
- Узнайте, на что стоит обратить внимание при построении распределенных систем и чем можно пожертвовать при решении конкретной задачи.
- Научитесь пользоваться экосистемой Hadoop.
- Узнайте, в чем предназначение каждой технологии в рамках экосистемы Hadoop.
- Изучите альтернативы Hadoop.
- Начните использовать Hadoop Distributed File System.
- Научитесь работать с распределенной файловой системой Hadoop.
- Ознакомьтесь со спектром решаемых задач.
- Изучите внутреннюю архитектуру HDFS и особенности её реализации.
- Научитесь управлять файлами, загружать, выгружать данные, администрировать кластера при помощи HDFS.
- Освойте технологию MapReduce для параллельных вычислений над большими наборами данных в компьютерных кластерах.
- Изучите задачи, которые решаются с помощью MapReduce.
- Научитесь анализировать большие объемы данных с использованием MapReduce
- Начните обзор технологии Apache Spark, выявите её отличие от MapReduce.
- Поймите, почему Apache Spark флагманская технология в мире BigData.
- Узнайте, какие задачи решает Apache Spark.
- Используйте технологию Apache Spark для организации больших данных.
- Начните знакомство со SparkSQL — одним из синтаксисов Apache Spark.
- Научитесь загружать данные в Spark.
- Изучите работу Spark со внешними источниками данных.
- Совершите трансформации над структурированными данными при помощи SparkSQL.
- Начните выгрузку данных из Spark.
- Научитесь проводить аналитику на структурированных данных в Spark.
- Поймите, как написать эффективный код и ускорить обработку больших данных в Apache Spark.
- Научитесь выявлять основные проблемы производительности Spark, устраните их.
- Организуйте данные в кластере Apache Spark.
- Поймите, чем отличается обработка потоковых данных от статичных.
- Научитесь обрабатывать потоки данных с помощью Spark Streaming.
- Разберите пример программы по анализу потоковых данных.
- Объедините все полученные знания.
- Создайте data platform.
- Сделайте обзор полного цикла подготовки и реализации проекта.
- Начните подготовку к курсовому проекту.
- Получите тему курсового проекта.
- Ознакомьтесь с форматом работы.
- Выполните ряд обязательных требований для реализации проекта.
- Успешно защитите его.
https://robotdreams.cc/course/t2-data-engineering