Курс 20775А: Обработка Данных с Microsoft HDInsight [2020]
Специалист
Федор Самородов
Этот курс предназначен для инженеров, архитекторов, специалистов по подготовке данных, а также разработчиков желающих использовать HDInsight и язык R в своих проектах.
Цель курса – предоставить слушателям знания и навыки, необходимые для работы с массивами больших данных, планирования и внедрения рабочих потоков с помощью HDInsight.
Курс читается на русском языке!
Вы научитесь
- Описывать Hadoop, MapReduce, HDInsight;
- Описывать типы кластеров HDInsight;
- Описывать создание, управление и удаление кластеров HDInsight с помощью PowerShell;
- Описывать, как разрешать доступ пользователей к объектам;
- Описывать конфигурации и архитектуру хранилища HDInsight;
- Проводить мониторинг ресурсов с Operations management suite;
- Выполнять запросы с Hive и Pig;
- Описывать использование ETL и Spark;
- Внедрять интерактивные запросы;
- Выполнять интерактивную обработку данных с помощью Apache Phoenix;
- Управлять задачами потоковой аналитики;
- Создавать приложения для обработки структурированных потоков в Spark;
- Использовать потоковые данные в Storm;
- Объяснять, как работает язык R;
- Преобразовывать и очищать наборы данных.
Модуль 1. Начало работы с HDInsight
- Большие данные
- Hadoop
- MapReduce
- HDInsight
- Запросы к данным с Hive
- Запросы к данным с Excel
- Типы кластеров HDInsight
- Управление кластерами HDInsight
- Управление кластерами HDInsight с помощью PowerShell
- Создание кластера Hadoop в HDInsight
- Настройка HDInsight с помощью скрипта
- Настройка HDInsight с помощью Bootstrap
- Удаление кластера HDInsight
- Недоменные кластеры
- Настройка кластера HDInsight, подключенного к домену
- Управление подключенным к домену кластером HDInsight
- Настройка кластера HDInsight, подключенного к домену
- Настроить политики Hive
- Хранилище HDInsigh
- Средства загрузки данных
- Производительность и надёжность
- Загрузка данных с помощью Sqoop
- Загрузка данных с помощью AZcopy
- Загрузка данных с помощью ADLcopy
- Использование HDInsight для сжатия данных
- Анализ журналов
- Журналы YARN
- Дампы кучи (Heap)
- Operations management suite
- Анализ журналов HDInsight
- Анализ журналов YARN
- Мониторинг ресурсов с Operations management suite
- Хранилище Apache Hive
- Запросы с Hive и Pig
- Подключение HDInsight
- Загрузка данных в таблицу Hive
- Запрос данных в Hive и Pig
- Что такое Spark?
- ETL и Spark
- Производительность Spark
- Создание кластера HDInsight с доступом к хранилищу Data Lake
- Использование кластера Spark в HDInsight для анализа данных в хранилище Data Lake
- Анализ журналов сайта с помощью настраиваемой библиотеки кластера Apache Spark в HDInsight
- Управление ресурсами кластера Apache Spark в Azure HDInsight
- Внедрение интерактивных запросов
- Проведение исследовательского анализа данных
- Внедрение интерактивных запросов
- Проведение исследовательского анализа данных
- Внедрение интерактивных запросов для больших данных с помощью Hive
- Проведение исследовательского анализа данных с помощью Hive
- Выполнение интерактивной обработки данных с помощью Apache Phoenix
- Внедрение интерактивных запросов для больших данных с помощью Hive
- Проведение исследовательского анализа данных с помощью Hive
- Выполнение интерактивной обработки данных с помощью Apache Phoenix
- Потоковая аналитика
- Обработка потоковых данных из потоковой аналитики
- Управление задачами потоковой аналитики
- Обработка потоковых данных из потоковой аналитики
- Управление задачами потоковой аналитики
- Обзор когнитивных служб
- DStream
- Создание приложений для обработки структурированных потоков в Spark
- Стабильность и визуализация
- Создание приложения Spark Streaming с помощью DStream API
- Создание приложения для обработки структурированных потоков в Spark
- Долгохранимые данные
- Потоковые данные в Storm
- Создание топологии Storm
- Настройка Apache Storm
- Потоковые данные в Storm
- Создание топологии Storm
- Внедрение интерактивных запросов
- Проведение исследовательского анализа данных
- Внедрение интерактивных запросов
- Проведение исследовательского анализа данных
https://www.specialist.ru/course/m20775a