ETL-разработчик: пайплайны, хранилища данных и BI-решения [2020]
Нетология
Алексей Кузьмин
Ни аналитик, ни инженер данных не пишет ETL с нуля, но умеет его наладить и использовать готовые решения, где это возможно. Такой подход не требует глубокого знания программирования и помогает избегать костыльных решений, которые компании не могут масштабировать.
- Перейдите на следующую ступень профессионального развития для аналитиков.
- Научитесь извлекать данные и переносить их в хранилища в нужном виде без помощи разработчиков.
- Получите востребованную за границей специальность.
1. Объяснять архитектуру и структуру базы данных.
Применять нормализацию, проектировать схемы хранилища: Star Schema, Snowflake Schema, Hybrid Schemas.
2. Писать запросы к базам данных, Join`ы, агрегаты, группировки, вложенные запросы.
Применять индексы, фильтрацию, агрегацию, импорт/экспорт данных.
3. Выбирать DWH под задачу и бюджет бизнеса.Понимать особенности популярных решений: Snowflake, BigQuery, Azure SQL DW, Redshift и прочих
4. Разовьёте навык data literacy.Научитесь понимать, пояснять и обогащать данные отчётов, дашбордов и других источников информации.
5. Выводить real-time отчётность.И строить RTDM-системы с использованием массовых enterprise BI-решений.
6. Управлять ETL/ELT-процессами.Настраивать и конфигурировать ETL / ELT-процессы в нескольких дата-инструментах.
1. Объяснять архитектуру и структуру базы данных.
Применять нормализацию, проектировать схемы хранилища: Star Schema, Snowflake Schema, Hybrid Schemas.
2. Продуктовым, маркетинговым, бизнес-аналитикам.
Расширите свою профессиональную траекторию, углубитесь в техническую сторону ровно настолько, чтобы достигать лучших результатов в текущей работе или перейти на новые более сложные задачи в работе с данными.
3. Разработчикам Python, JS, Java, C++.Узнаете, как правильно спроектировать аналитическую БД для нужд потребителей данных: аналитиков и руководителей, принимающих решения. Научитесь выводить real-time отчётность и строить RTDM-систему с понятными и читаемыми бизнес-показателями.
1. Объяснять архитектуру и структуру базы данных.
Применять нормализацию, проектировать схемы хранилища: Star Schema, Snowflake Schema, Hybrid Schemas.
Модуль 2 - Data Warehouse
Научитесь организовывать работу с традиционными хранилищами данных и настраивать и конфигурировать ETL / ELT-процессы (Pentaho или аналоги). Выполните заливку данных в нескольких популярных форматах и создадите свой первый OLAP-куб. Поймёте плюсы и минусы Snowflake, BigQuery, Azure SQL DW, Redshift и разберётесь, когда переводить процессы с разрозненных Excel на БД.
Модуль 3 - Выбор и подключение Business Intelligence-решения- Проектирование хранилища данных
- Знакомство с Pentaho
- ETL-pro
- Data Governance
- DWH в облаке
Научитесь определять потребности и требования бизнес-пользователей, выбирать решения, архитектуру под него и стратегию масштабирования, удовлетворяющую росту бизнеса. Познакомитесь с Tableau / Power BI как самыми популярными энтерпрайз-решениями. Подключитесь к хранилищу данных и выполните передачу данных в шаблонный dashboard. Научитесь выводить Real Time-отчётность.
Модуль 4 - Дипломная работа- BI как сердце аналитики
- Знакомство с Pentaho BI
- Многомерные модели
- Pentaho Analysis Services
- Real Time-отчётность
В качестве дипломного проекта необходимо выполнить работу на учебном датасете, основанном на данных реального бизнеса. Вас ждут две личные онлайн-консультации с ментором и одна групповая консультация с ответами на вопросы и советами по подготовке работы.
В рамках диплома потребуется:
В рамках диплома потребуется:
- Спроектировать модель данных
- Загрузить в неё данные при помощи ETL
- Построить OLAP-куб
- Реализовать дашборд
Продажник