Big Data Workshop: real-time обработка данных с использованием Spark и Kafka [2021]
МФТИ (ФПМИ МФТИ Физтех-школа прикладной математики и информатики)
Олег Ивченко, Арсений Ташоян, Иван Пономарев
Что такое real-time обработка больших данных и когда она нужна?
- Real-time обработка данных - метод обработки данных, при которых данные обрабатываются небольшими порциями. Работа с каждой порцией занимает минимальное время, поэтому мы всегда имеем актуальный результат.
- Отличными примерами real-time обработки больших данных являются потоковая передача данных, радиолокационные системы, рекомендательные системы и банкоматы, где немедленная обработка имеет решающее значение для правильной работы системы.
- Data engineers и архитекторы BigData приложений, которые интересуются методами realtime-обработки данных
- Разработчики из других сфер, которым интересно получить Best practices в области realtime-обработки данных
- Получите опыт работы с распределенным брокером событий Kafka
- Научитесь строить приложения потоковой обработки данных с помощью Kafka Streams
Модуль 1 - Основные концепции и архитектура Apache Kafka
Тема 1. Что такое Kafka и что она умеет
Тема 2. Что такое потоковая архитектура и на что способны потоковые обработчики
Тема 3. Основные инструменты разработчика
Модуль 2 - Kafka Streams APIТема 2. Что такое потоковая архитектура и на что способны потоковые обработчики
Тема 3. Основные инструменты разработчика
Тема 4. Kafka Streams: основы и stateless трансформации. Конфигурация приложения
Тема 5. Трансформации с использованием локального состояния
Тема 6. Дуализм «поток—таблица» и табличные join-ы
Тема 7. Время и оконные операции
Тема 5. Трансформации с использованием локального состояния
Тема 6. Дуализм «поток—таблица» и табличные join-ы
Тема 7. Время и оконные операции
https://fpmi-edu.ru/bigdataworkshops