Придбаний Основы Apache Hadoop [2022] [Специалист] [Сергей Шуйков]

Gadzhi · Бер 26, 2025

.

Основы Apache Hadoop [2022]
Специалист
Сергей Шуйков

Hadoop — проект фонда Apache Software Foundation, свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов.

Проект используется для реализации поисковых и контекстных механизмов многих высоконагруженных веб-сайтов, в том числе, для Facebook.

На курсе рассказывается об основах функционирования Apache Hadoop, и архитектуре приложений обработки данных базирующихся на нём.

Мы рассмотрим работу с распределенной файловой системой Hadoop (HDFS), созданной для хранения очень большого объема информации (терабайт или даже петабайт) и обеспечивающей высокую скорость доступа к этой информации.

Задействуем фреймворк MapReduce, который управляет распределением компонент нашего приложения по множеству узлов вычислительного кластера.

Познакомимся с другими проектами, базирующимися на Hadoop и образующих целую экосистему.

Вы научитесь:

Настраивать виртуальные машины для запуска Hadoop приложений.
Работать с файловой системой HDFS.
Создавать распределенное приложение, работающее на узлах кластера Hadoop.

Вы будете знать:

Архитектуру Hadoop;
Распределенную файловую систему HDFS;
Классический MapReduce;
Использование YARN;

Модуль 1 - Архитектура Hadoop

Лабораторная: Создание и конфигурирование виртуальных машин.

Модуль 2 - Распределенная файловая система HDFS

Лабораторная: Работа с HDFS: реплицирование, чтение и запись данных, команды HDFS.

Модуль 3 - Модель распределённый вычислений MapReduce, форматы данных для MapReduce

Лабораторная: Управление приложением и ресурсами.

Модуль 4 - Архитектура YARN

Лабораторная: Управление ресурсами кластера.

Модуль 5 - Выполнение задач в приложении MapReduce и YARN

Лабораторная: Использование распределенного кэша.

Модуль 6 - Использование потоковой обработки (Hadoop Streaming)

Модуль 7 - Компоненты экосистемы Hadoop

Введение в Pig (высокоуровневая абстракция обработки данных):Ведение в Hive (СУБД на основе Hadoop, язык HiveQL).
Введение в Sqoop (взаимодействие с классическими реляционными базами).

https://www.specialist.ru/course/hadoop

Пошук

Пошук

Придбаний Основы Apache Hadoop [2022] [Специалист] [Сергей Шуйков]

Gadzhi

Модератор