Spark Developer [2022]
OTUS
Егор Матешук, Михаил Юрченков, Руслан Сабитов, Виталий Монастырев, Артемий Козырь, Вадим Заигрин, Максим Мигутин, Вадим Опольский
Углубленный курс по самым мощным инструментам обработки больших данных.
Для кого этот курс:
Курс рассчитан на Data инженеров, желающих глубже изучить Spark, а попутно также Hadoop и Hive.
На курсе вы изучите следующие основные темы:
- Hadoop (основные компоненты, дистрибутивы вендоров)
- Архитектура HDFS
- Архитектура YARN
- Форматы данных
- Spark
- Spark Streaming и Flink
- Hive
- Оркестрация, Мониторинг и CI/CD
Научитесь применять все это на практике и закрепите с помощью интересных и сложных домашних заданий и выпускного проекта.
После прохождения курса вы сможете:
- Использовать Hadoop для обработки данных
- Взаимодействовать с его компонентами через консольные клиенты и API
- Работать со слабоструктурированными данными в Hive
- Писать и оптимизировать приложения на Spark
- Писать тесты для Spark-приложений
- Использовать Spark для обработки табличных, потоковых, гео-данных и даже графов
- Настраивать CI и мониторинг Spark-приложений
Модуль 1 - Scala
Тема 1. Основы Scala
Тема 2. Сборка проектов на Scala
Тема 3. Сборка проектов на Scala. Практика
Тема 2. Сборка проектов на Scala
Тема 3. Сборка проектов на Scala. Практика
Модуль 2 - Hadoop
Тема 4. Hadoop
Тема 5. HDFS
Тема 6. YARN
Тема 7. Форматы данных
Тема 8. Q&A
Модуль 3 - SparkТема 5. HDFS
Тема 6. YARN
Тема 7. Форматы данных
Тема 8. Q&A
Тема 9. Архитектура приложения Spark
Тема 10. RDD/Dataframe/Dataset
Тема 11. Методы оптимизации приложений Spark
Тема 12. Написание коннекторов для Spark
Тема 13. Тестирование приложений Spark
Тема 14. Spark ML
Модуль 4 - StreamingТема 10. RDD/Dataframe/Dataset
Тема 11. Методы оптимизации приложений Spark
Тема 12. Написание коннекторов для Spark
Тема 13. Тестирование приложений Spark
Тема 14. Spark ML
Тема 15. Kafka
Тема 16. Spark Streaming
Тема 17. Structured Streaming
Тема 18. Flink - часть 1
Тема 19. Flink - часть 2
Тема 20. Q&A
Модуль 5 - Apache HiveТема 16. Spark Streaming
Тема 17. Structured Streaming
Тема 18. Flink - часть 1
Тема 19. Flink - часть 2
Тема 20. Q&A
Тема 21. Обзор Hive
Тема 22. HiveQL
Модуль 6 - Обслуживающие системыТема 22. HiveQL
Тема 23. Оркестрация процессов обработки данных
Тема 24. Мониторинг и логирование для Spark-приложений
Тема 25. CI/CD для Spark и Hive
Тема 26. Q&A
Модуль 7 - Проектная работаТема 24. Мониторинг и логирование для Spark-приложений
Тема 25. CI/CD для Spark и Hive
Тема 26. Q&A
Тема 27. Выбор темы и организация проектной работы
Тема 28. Консультация по проектам и домашним заданиям
Тема 29. Защита проектных работ
Тема 28. Консультация по проектам и домашним заданиям
Тема 29. Защита проектных работ
https://otus.ru/lessons/spark/?int_source=courses_catalog&int_term=data-science