Що нового?

Придбаний Основы Apache Hadoop [2022] [Специалист] [Сергей Шуйков]

Інформація про покупку
Тип покупки: Складчина
Ціна: 15634 ГРН
Учасників: 0 з 21
Організатор: Відсутній
Статус: Набір учасників
Внесок: 774.3 ГРН
0%
Основний список
Резервний список

Gadzhi

Модератор
Основы Apache Hadoop [2022]
Специалист
Сергей Шуйков


Hadoop — проект фонда Apache Software Foundation, свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов.

Проект используется для
реализации поисковых и контекстных механизмов многих высоконагруженных веб-сайтов, в том числе, для Facebook.

На курсе рассказывается об основах функционирования Apache Hadoop, и архитектуре приложений обработки данных базирующихся на нём.

Мы рассмотрим работу с распределенной файловой системой Hadoop (HDFS), созданной для хранения очень большого объема информации (терабайт или даже петабайт) и обеспечивающей высокую скорость доступа к этой информации.

Задействуем фреймворк MapReduce, который управляет распределением компонент нашего приложения по множеству узлов вычислительного кластера.

Познакомимся с другими проектами, базирующимися на Hadoop и образующих целую экосистему.

Вы научитесь:

  1. Настраивать виртуальные машины для запуска Hadoop приложений.
  2. Работать с файловой системой HDFS.
  3. Создавать распределенное приложение, работающее на узлах кластера Hadoop.
Вы будете знать:
  1. Архитектуру Hadoop;
  2. Распределенную файловую систему HDFS;
  3. Классический MapReduce;
  4. Использование YARN;
Модуль 1 - Архитектура Hadoop
  • Лабораторная: Создание и конфигурирование виртуальных машин.
Модуль 2 - Распределенная файловая система HDFS
  • Лабораторная: Работа с HDFS: реплицирование, чтение и запись данных, команды HDFS.
Модуль 3 - Модель распределённый вычислений MapReduce, форматы данных для MapReduce
  • Лабораторная: Управление приложением и ресурсами.
Модуль 4 - Архитектура YARN
  • Лабораторная: Управление ресурсами кластера.
Модуль 5 - Выполнение задач в приложении MapReduce и YARN
  • Лабораторная: Использование распределенного кэша.
Модуль 6 - Использование потоковой обработки (Hadoop Streaming)

Модуль 7 - Компоненты экосистемы Hadoop

  • Введение в Pig (высокоуровневая абстракция обработки данных):Ведение в Hive (СУБД на основе Hadoop, язык HiveQL).
  • Введение в Sqoop (взаимодействие с классическими реляционными базами).
https://www.specialist.ru/course/hadoop
 
Угорі