Що нового?

Придбаний Data Engineering [2021] [robot dreams] [Антон Бондарь]

Інформація про покупку
Тип покупки: Складчина
Ціна: 6667 ГРН
Учасників: 0 з 14
Організатор: Відсутній
Статус: Набір учасників
Внесок: 495.3 ГРН
0%
Основний список
Резервний список

Gadzhi

Модератор

Data Engineering [2021]
robot dreams
Антон Бондарь


Начните путь в Data Engineering уже сейчас.

Вы детально изучите все этапы обработки данных и разберете необходимые инструменты для работы с ними, научитесь строить ETL-системы и проектировать хранилища данных.


Пройдите курс DE и вы сможете
  1. Хранить и обрабатывать огромные массивы данных.
  2. Освоить инструменты Hadoop, Apache Airflow, Apache Spark, SparkSQL, HDFS и MapReduce.
  3. Строить собственные Data Platform, которые способны масштабироваться.
  4. Овладеть профессией, актуальной через 5-10-15 лет.
  5. Повысить свою квалификацию и уровень дохода.
Кому будет полезен курс
1. Data Scientist/ Data Analyst
Вы углубите знания в работе с данными, научитесь строить пайплайны, хранилища, обрабатывать и эффективнее анализировать данные.​
2. Software/SQL/ ETL Developer
Вы усилите свои компетенции по работе с данными, научитесь самостоятельно строить системы хранения и обработки данных.​
3. Data Engineer (beginner)
Вы углубите знания в работе с данными, научитесь строить пайплайны, хранилища, обрабатывать и эффективнее анализировать данные.​
Содержание
Модуль 1 - Введение в Data Engineering
  • Узнайте всё, что вы хотели о профессии Data Engineer: цели, направления, задачи, обязанности и функция в команде.
  • Сравните Data Engineer vs Big Data Engineer.
  • Ознакомьтесь с технологиями, с которыми вы будете работать во время курса.
  • Поймите, какие задачи решает конкретная Big Data технология.
Модуль 2 - Python для Data Engineering
  • Научитесь работать с разными структурами данных: string, list, tuple, set, dictionary.
  • Начните загружать данные из внешних источников с помощью Python.
  • Узнайте специфику работы с модулями Python: import и relative import модулей.
Модуль 3 - SQL для Data Engineering
  • Узнайте, для чего используется SQL в Big Data.
  • Научитесь объединять наборы данных при помощи SQL: JOIN, UNION, EXCEPT.
  • Начните использовать SQL для аналитических запросов: аналитические функции, группирование данных, оконные функции.
  • Поймите, как писать быстро-выполняющийся SQL.
Модуль 4 - Аналитические базы данных
  • Выявите различия между OLTP и OLAP системами.
  • Поймите техническую реализацию системы управления баз данных, предназначенных для аналитики.
  • Научитесь описывать структуру базы данных при помощи ER-модели для ее будущего конструирования (Crow’s foot notation).
Модуль 5 - Проектирование хранилищ данных
  • Узнайте, какое назначение хранилищ данных и какие существуют подходы к их проектированию.
  • Научитесь проектировать (строить) хранилища данных.
  • Освойте навык “представление данных в виде витрин”.
  • Разберите примеры существующих хранилищ данных.
Модуль 6 - Передача данных между системами. Часть 1
  • Спроектируйте ETL решение.
  • Поймите, как передавать данные между системами.
  • Научитесь извлекать данные из внешних источников, трансформировать и очищать.
Модуль 7 - Передача данных между системами. Часть 2
  • Научитесь создавать, запускать и мониторить ETL при помощи Apache Airflow.
  • Начните описывать ETL процессы, используя Directed Acyclic Graph.
  • Напишите свой оператор Airflow для доступа к API.
  • Подключитесь к внешним источникам данных с помощью Apache Airflow.
Модуль 8 - Распределенные вычисления. Лекция
  • Разберитесь с понятием распределенных систем и вычислений.
  • Узнайте, какие задачи они решают и какие готовые решения уже существуют.
  • Выявите отличия распределенных систем от обычных, разберите их преимущества и недостатки.
  • Поймите, что означают свойства распределенных систем и ограничения распределенных систем в САР-теореме для вашей работы.
  • Узнайте, на что стоит обратить внимание при построении распределенных систем и чем можно пожертвовать при решении конкретной задачи.
Модуль 9 - Экосистема Hadoop для распределенной работы с файлами
  • Научитесь пользоваться экосистемой Hadoop.
  • Узнайте, в чем предназначение каждой технологии в рамках экосистемы Hadoop.
  • Изучите альтернативы Hadoop.
  • Начните использовать Hadoop Distributed File System.
Модуль 10 - Распределенная файловая система (HDFS)
  • Научитесь работать с распределенной файловой системой Hadoop.
  • Ознакомьтесь со спектром решаемых задач.
  • Изучите внутреннюю архитектуру HDFS и особенности её реализации.
  • Научитесь управлять файлами, загружать, выгружать данные, администрировать кластера при помощи HDFS.
Модуль 11 - Распределенные вычисления (MapReduce)
  • Освойте технологию MapReduce для параллельных вычислений над большими наборами данных в компьютерных кластерах.
  • Изучите задачи, которые решаются с помощью MapReduce.
  • Научитесь анализировать большие объемы данных с использованием MapReduce
Модуль 12 - Распределенные вычисления в оперативной памяти (Apache Spark)
  • Начните обзор технологии Apache Spark, выявите её отличие от MapReduce.
  • Поймите, почему Apache Spark флагманская технология в мире BigData.
  • Узнайте, какие задачи решает Apache Spark.
  • Используйте технологию Apache Spark для организации больших данных.
Модуль 13 - Работа со структурированными данными при помощи SparkSQL. Часть 1
  • Начните знакомство со SparkSQL — одним из синтаксисов Apache Spark.
  • Научитесь загружать данные в Spark.
  • Изучите работу Spark со внешними источниками данных.
  • Совершите трансформации над структурированными данными при помощи SparkSQL.
Модуль 14 - Работа со структурированными данными при помощи SparkSQL. Часть 2
  • Начните выгрузку данных из Spark.
  • Научитесь проводить аналитику на структурированных данных в Spark.
Модуль 15 - Оптимизация выполнения задач в Apache Spark
  • Поймите, как написать эффективный код и ускорить обработку больших данных в Apache Spark.
  • Научитесь выявлять основные проблемы производительности Spark, устраните их.
  • Организуйте данные в кластере Apache Spark.
Модуль 16 - Потоки данных в Apache Spark
  • Поймите, чем отличается обработка потоковых данных от статичных.
  • Научитесь обрабатывать потоки данных с помощью Spark Streaming.
  • Разберите пример программы по анализу потоковых данных.
Модуль 17 - Подведение итогов
  • Объедините все полученные знания.
  • Создайте data platform.
  • Сделайте обзор полного цикла подготовки и реализации проекта.
  • Начните подготовку к курсовому проекту.
Модуль 18 - Защита курсового проекта
  • Получите тему курсового проекта.
  • Ознакомьтесь с форматом работы.
  • Выполните ряд обязательных требований для реализации проекта.
  • Успешно защитите его.
Примечание: на момент создания темы актуальная цена не известна.

https://robotdreams.cc/course/t2-data-engineering
 
Угорі