Data Engineer (февраль 2026) [OTUS] [Дмитрий Тарасов, Ростислав Михеев, Вадим Заигрин]
Получите структурированные знания о подходах и инструментах. Курс проходит с практикой в Yandex Cloud!
Для кого этот курс?
Старт занятий 15 февраля 2026
Цена 114000 руб
Получите структурированные знания о подходах и инструментах. Курс проходит с практикой в Yandex Cloud!
Для кого этот курс?
- Для Junior Data-инженеров, которые уже знакомы с основами программирования (Python, SQL) и хотят специализироваться на инженерии данных.
- Для программистов, которые хотят перейти в Data Engineering, работающих с базами данных (DBA, аналитики), желающих расширить свои навыки.
- Для Backend-разработчиков, которые интересуются построением масштабируемых data-решений.
- Для аналитиков данных, которые хотят лучше понимать, как устроены data pipelines и инфраструктура.
- Для специалистов по Data Science, желающие научиться самостоятельно проектировать и поддерживать ETL-процессы.
- Для DevOps и системных администраторов, которые хотят освоить инструменты для работы с большими данными (Hadoop, Spark, Kafka и др.) и научиться настраивать data-инфраструктуру.
- Для архитекторов, желающих изучить современные подходы к проектированию data-платформ.
- Опыт разработки на Java/Python
- Основы работы с БД: SQL, индексы, агрегирующие функции
- Базовые знания ОС: работа с командной строкой, доступ по SSH
- Навыки работы с Docker
- Знакомство с компонентами экосистемы Hadoop
- Понимание основ машинного обучения с позиции Data Scienist-а или аналитика
- Понимание ценности данных для бизнеса и архитектуры
- Узнаете, как организовать хранение данных, познакомитесь с методами проектирования хранилищ
- Сможете разрабатывать ETL процессы для выгрузки данных из внешних источников
- Научитесь преобразовывать данные в пакетном и потоковом режимах
- Узнаете что такое качество данных и как работать с метаданными
- Изучите современные BI инструменты и научитесь создавать витрины данных
- Разворачивать, настраивать и оптимизировать инструменты обработки данных:
- Разрабатывать и оптимизировать пайплайны обработки данных
- Использовать Apache Airflow для оркестрации задач
- Обрабатывать большие данные с помощью Apache Spark
- Работать с базами данных и хранилищами данных:
- Строить ETL/ELT-процессы для загрузки и обработки данных
- Работать с распределёнными хранилищами (HDFS, S3) и DWH (ClickHouse)
- Адаптировать датасеты для дальнейшей работы и аналитики
- Создадите сервисы, которые используют результаты обработки больших объемов данных
- Применять облачные технологии
- Решать реальные бизнес-задачи: cтроить отчётность и дашборды, обеспечивать Data Governance
- Введение
- DWH
- Хранение данных
- Загрузка данных
- Запросы к данным и трансформация
- Предоставление данных для аналитики и машинного обучения
- DataOps
- Выпускной проект
Введение
Введение в профессию. Кто такой Инженер Данных. Какие задачи он решает. Архитектура систем.
Тема 1: Инженер данных. Задачи, навыки, инструменты, потребность на рынке
Тема 2: Архитектура систем обработки данных
Тема 3: Выбор технологий. Облачные технологии
Тема 4: Docker
DWH
Что это такое Хранилища Данных. Для чего используются. Как их проектировать и как с ними работать.
Тема 1: Что такое DWH
Тема 2: Модели данных в DWH
Тема 3: Проектирование DWH
Тема 4: Greenplum
Тема 5: ClickHouse
Тема 6: Разбор ДЗ по 2 модулю
Хранение данных
Озёра Данных. Распределённые файловые системы. Что это такое. Для чего используются. Как с ними работать.
Тема 1: Основы Hadoop
Тема 2: Знакомство с Data Lake
Тема 3: Распределенные файловые системы
Тема 4: NoSQL. Key-Value
Тема 5: NoSQL. Wide-column
Тема 6: ELK
Тема 7: ELK (практика)
Загрузка данных
Изучаем загрузку и обработку данных. Организация конвейеров обработки.
Тема 1: Загрузка данных
Тема 2: Apache Kafka
Тема 3: Apache Ni-Fi. Выгрузка данных из внешних систем
Тема 4: Apache Airflow. Введение в автоматизацию пайплайнов и оркестрацию
Тема 5: Apache Airflow. Сложные пайплайны
Запросы к данным и трансформация
Изучаем как формулировать запросу к данным, как проводить трансформации.
Тема 1: Аналитические запросы
Тема 2: Apache Hive. SQL доступ к Hadoop
Тема 3: Apache Spark. Архитектура приложения
Тема 4: Apache Spark. API
Тема 5: Обработка потоковых данных
Предоставление данных для аналитики и машинного обучения
Управление данными. Качество данных. BI
Тема 1: Предоставление данных
Тема 2: Data Quality. Управление качеством данных
Тема 3: Управление метаданными
Тема 4: Основы Business Intelligence
Тема 5: Развертывание BI-решения
DataOps
Data + DevOps = DataOps
Тема 1: DevOps практики. CI + CD
Тема 2: Мониторинг
Тема 3: Разбор ДЗ по 3 и 4 модулю
Выпускной проект
Заключительный месяц курса посвящен проектной работе. Свой проект — это то, что интересно писать слушателю. То, что можно создать на основе знаний, полученных на курсе. При этом не обязательно закончить его за месяц. В процессе написания по проекту можно получить консультации преподавателей.
Тема 1: Выбор темы и организация проектной работы
Тема 2: Консультация по проектам и домашним заданиям
Тема 3: Защита проектных работ
Введение в профессию. Кто такой Инженер Данных. Какие задачи он решает. Архитектура систем.
Тема 1: Инженер данных. Задачи, навыки, инструменты, потребность на рынке
Тема 2: Архитектура систем обработки данных
Тема 3: Выбор технологий. Облачные технологии
Тема 4: Docker
DWH
Что это такое Хранилища Данных. Для чего используются. Как их проектировать и как с ними работать.
Тема 1: Что такое DWH
Тема 2: Модели данных в DWH
Тема 3: Проектирование DWH
Тема 4: Greenplum
Тема 5: ClickHouse
Тема 6: Разбор ДЗ по 2 модулю
Хранение данных
Озёра Данных. Распределённые файловые системы. Что это такое. Для чего используются. Как с ними работать.
Тема 1: Основы Hadoop
Тема 2: Знакомство с Data Lake
Тема 3: Распределенные файловые системы
Тема 4: NoSQL. Key-Value
Тема 5: NoSQL. Wide-column
Тема 6: ELK
Тема 7: ELK (практика)
Загрузка данных
Изучаем загрузку и обработку данных. Организация конвейеров обработки.
Тема 1: Загрузка данных
Тема 2: Apache Kafka
Тема 3: Apache Ni-Fi. Выгрузка данных из внешних систем
Тема 4: Apache Airflow. Введение в автоматизацию пайплайнов и оркестрацию
Тема 5: Apache Airflow. Сложные пайплайны
Запросы к данным и трансформация
Изучаем как формулировать запросу к данным, как проводить трансформации.
Тема 1: Аналитические запросы
Тема 2: Apache Hive. SQL доступ к Hadoop
Тема 3: Apache Spark. Архитектура приложения
Тема 4: Apache Spark. API
Тема 5: Обработка потоковых данных
Предоставление данных для аналитики и машинного обучения
Управление данными. Качество данных. BI
Тема 1: Предоставление данных
Тема 2: Data Quality. Управление качеством данных
Тема 3: Управление метаданными
Тема 4: Основы Business Intelligence
Тема 5: Развертывание BI-решения
DataOps
Data + DevOps = DataOps
Тема 1: DevOps практики. CI + CD
Тема 2: Мониторинг
Тема 3: Разбор ДЗ по 3 и 4 модулю
Выпускной проект
Заключительный месяц курса посвящен проектной работе. Свой проект — это то, что интересно писать слушателю. То, что можно создать на основе знаний, полученных на курсе. При этом не обязательно закончить его за месяц. В процессе написания по проекту можно получить консультации преподавателей.
Тема 1: Выбор темы и организация проектной работы
Тема 2: Консультация по проектам и домашним заданиям
Тема 3: Защита проектных работ
Цена 114000 руб
https://otus.ru/lessons/data-engineer/