Основы Apache Hadoop [2022]
Специалист
Сергей Шуйков
Hadoop — проект фонда Apache Software Foundation, свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов.
Проект используется для реализации поисковых и контекстных механизмов многих высоконагруженных веб-сайтов, в том числе, для Facebook.
На курсе рассказывается об основах функционирования Apache Hadoop, и архитектуре приложений обработки данных базирующихся на нём.
Мы рассмотрим работу с распределенной файловой системой Hadoop (HDFS), созданной для хранения очень большого объема информации (терабайт или даже петабайт) и обеспечивающей высокую скорость доступа к этой информации.
Задействуем фреймворк MapReduce, который управляет распределением компонент нашего приложения по множеству узлов вычислительного кластера.
Познакомимся с другими проектами, базирующимися на Hadoop и образующих целую экосистему.
Вы научитесь:
- Настраивать виртуальные машины для запуска Hadoop приложений.
- Работать с файловой системой HDFS.
- Создавать распределенное приложение, работающее на узлах кластера Hadoop.
- Архитектуру Hadoop;
- Распределенную файловую систему HDFS;
- Классический MapReduce;
- Использование YARN;
Модуль 1 - Архитектура Hadoop
Модуль 7 - Компоненты экосистемы Hadoop
- Лабораторная: Создание и конфигурирование виртуальных машин.
- Лабораторная: Работа с HDFS: реплицирование, чтение и запись данных, команды HDFS.
- Лабораторная: Управление приложением и ресурсами.
- Лабораторная: Управление ресурсами кластера.
- Лабораторная: Использование распределенного кэша.
Модуль 7 - Компоненты экосистемы Hadoop
- Введение в Pig (высокоуровневая абстракция обработки данных):Ведение в Hive (СУБД на основе Hadoop, язык HiveQL).
- Введение в Sqoop (взаимодействие с классическими реляционными базами).
https://www.specialist.ru/course/hadoop