Экосистема Hadoop, Spark, Hive. Углубленный курс по самым мощным инструментам обработки больших данных [Otus] [Егор Матешук]
Экосистема Hadoop, Spark, Hive
Углубленный курс по самым мощным инструментам обработки больших данных
Для кого этот курс:
Курс рассчитан на Data инженеров, желающих глубже изучить Spark, Hadoop, Hive
На курсе вы изучите следующие основные темы:
Научитесь применять все это на практике и закрепите с помощью интересных и сложных домашних заданий и выпускного проекта.
После прохождения курса вы сможете:
Программа курса
Модуль 1 Scala
Тема 1. Основы Scala
Тема 2. Сборка проектов на Scala
Модуль 2 Hadoop
Тема 3. Hadoop
Тема 4. HDFS
Тема 5. YARN
Тема 6. Форматы данных
Модуль 3 Spark
Тема 7. Архитектура приложения Spark
Тема 8. RDD/Dataframe/Dataset
Тема 9. Методы оптимизации приложений Spark
Тема 10. Написание коннекторов для Spark
Тема 11. Тестирование приложений Spark
Тема 12. Spark ML
Модуль 4 Streaming
Тема 13. Kafka
Тема 14. Spark Streaming
Тема 15. Structured Streaming
Тема 16. Flink - часть 1
Тема 17. Flink - часть 2
Модуль 5 Apache Hive
Тема 18. Обзор Hive
Тема 19. HiveQL
Модуль 6 Обслуживающие системы
Тема 20. Оркестрация процессов обработки данных
Тема 21. Мониторинг и логирование для Spark-приложений
Тема 22. CI/CD для Spark и Hive
Экосистема Hadoop, Spark, Hive
Углубленный курс по самым мощным инструментам обработки больших данных
Для кого этот курс:
Курс рассчитан на Data инженеров, желающих глубже изучить Spark, Hadoop, Hive
На курсе вы изучите следующие основные темы:
- Hadoop (основные компоненты, дистрибутивы вендоров)
- Архитектура HDFS
- Архитектура YARN
- Форматы данных
- Spark
- Spark Streaming и Flink
- Hive
- Оркестрация, Мониторинг и CI/CD
Научитесь применять все это на практике и закрепите с помощью интересных и сложных домашних заданий и выпускного проекта.
После прохождения курса вы сможете:
- Использовать Hadoop для обработки данных
- Взаимодействовать с его компонентами через консольные клиенты и API
- Работать со слабоструктурированными данными в Hive
- Писать и оптимизировать приложения на Spark
- Писать тесты для Spark-приложений
- Использовать Spark для обработки табличных, потоковых, гео-данных и даже графов
- Настраивать CI и мониторинг Spark-приложений
Программа курса
Модуль 1 Scala
Тема 1. Основы Scala
Тема 2. Сборка проектов на Scala
Модуль 2 Hadoop
Тема 3. Hadoop
Тема 4. HDFS
Тема 5. YARN
Тема 6. Форматы данных
Модуль 3 Spark
Тема 7. Архитектура приложения Spark
Тема 8. RDD/Dataframe/Dataset
Тема 9. Методы оптимизации приложений Spark
Тема 10. Написание коннекторов для Spark
Тема 11. Тестирование приложений Spark
Тема 12. Spark ML
Модуль 4 Streaming
Тема 13. Kafka
Тема 14. Spark Streaming
Тема 15. Structured Streaming
Тема 16. Flink - часть 1
Тема 17. Flink - часть 2
Модуль 5 Apache Hive
Тема 18. Обзор Hive
Тема 19. HiveQL
Модуль 6 Обслуживающие системы
Тема 20. Оркестрация процессов обработки данных
Тема 21. Мониторинг и логирование для Spark-приложений
Тема 22. CI/CD для Spark и Hive
https://otus.ru/lessons/spark/