Apache Spark и Scala для дата инжиниринга 2.0 [NewProLab] [Андрей Титов, Егор Матещук]]
Король мира больших данных
Apache Spark стал стандартом для распределенной обработки больших данных
Apache Spark — самый популярный инструмент мира Big Data. Он позволяет обрабатывать большие объемы данных в распределенном режиме, создавать витрины данных и real-time приложения, позволяющие на лету пересчитывать и готовить свежие матрицы признаков для моделей машинного обучения. Наш интенсивный курс содержит занятия с преподавателями-практиками и практические работы, которые помогут вам овладеть новыми инструментами.
В нашей программе есть три составляющих:
Scala API
Всё самое лучшее и свежее в Apache Spark есть в скаловском API. Программа начинается с вводного занятия по этому языку. Вы научитесь создавать проекты и работать в IntelliJ IDEA.
Витрины данных
Чтение и запись Parquet/ORC, работа с ElasticSearch, Cassandra, PostgreSQL через JDBC-коннектор, с Data Frames и DataSets API для создания витрин данных.
Real-time
Запуск агрегаций и джойнов на потоковых данных, output modes, watermarks, windows. Создание кастомного источника данных и синка с использованием Datasource V1 API.
Король мира больших данных
Apache Spark стал стандартом для распределенной обработки больших данных
Apache Spark — самый популярный инструмент мира Big Data. Он позволяет обрабатывать большие объемы данных в распределенном режиме, создавать витрины данных и real-time приложения, позволяющие на лету пересчитывать и готовить свежие матрицы признаков для моделей машинного обучения. Наш интенсивный курс содержит занятия с преподавателями-практиками и практические работы, которые помогут вам овладеть новыми инструментами.
В нашей программе есть три составляющих:
Scala API
Всё самое лучшее и свежее в Apache Spark есть в скаловском API. Программа начинается с вводного занятия по этому языку. Вы научитесь создавать проекты и работать в IntelliJ IDEA.
Витрины данных
Чтение и запись Parquet/ORC, работа с ElasticSearch, Cassandra, PostgreSQL через JDBC-коннектор, с Data Frames и DataSets API для создания витрин данных.
Real-time
Запуск агрегаций и джойнов на потоковых данных, output modes, watermarks, windows. Создание кастомного источника данных и синка с использованием Datasource V1 API.
https://newprolab.com/ru/spark-de