Big Data для Data Science [Stepik Academy] [Александр Савченко, Анатолий Карпов]
Первая неделя. Введение в Big Data для Data Science
1. Зачем DS знать Big Data?
Вторая неделя. Hadoop
1. Архитектура Hadoop и компоненты
2. HDFS
Третья неделя. Spark
1. Архитектура Spark и компоненты
Четвёртая неделя. Workflow
1. Архитектура хранилищ Data Warehouse vs Data Lake
Пятая неделя. SparkML
1. Модели и алгоритмы Spark ML
Скрытое содержимое.
Первая неделя. Введение в Big Data для Data Science
1. Зачем DS знать Big Data?
- Зачем нужны DS?
- Две проблемы в работе с данными для DS
- Teamwork (Data Engineer + Data Science + Data Analyst)
- SQL (PostgreSQL, MySQL)
- NoSQL (Document, KV, Column, Graph)
- Применение Hadoop
- Применение Spark
Вторая неделя. Hadoop
1. Архитектура Hadoop и компоненты
2. HDFS
- Свойства
- NameNode/DataNode
- Отказоустойчивость
- Работа с HDFS
- Реляционные БД и SQL
- Hbase & Cassandra & ClickHouse
- Hive
- Вебинар второй недели
Третья неделя. Spark
1. Архитектура Spark и компоненты
- Применение
- Spark Core/SQL/Streams/GraphX/ML
- Архитектура
- Выполнение задач и мониторинг (master, mode...)
- RDD
- DataFrame
- DataFrame Spark vs Pandas (link)
- Dataframe as SQL table
- Применение
- Spark Streaming
- Apache Kafka
Четвёртая неделя. Workflow
1. Архитектура хранилищ Data Warehouse vs Data Lake
- Data Warehouse компоненты, плюсы и минусы
- Data Lake компоненты, плюсы и минусы
- Cloud AWS/GCP
- ETL & ELT
- Apache Airflow
Пятая неделя. SparkML
1. Модели и алгоритмы Spark ML
- Spark ML Архитектура
- Spark ML модели и алгоритмы
- Spark ML - Практика
- Spark ML - Задачи
- Введение в Business Intelligence
- SuperSet - Практика
- SuperSet - Задачи
Скрытое содержимое.
Продажникhttps://academy.stepik.org/big-data