Основы Hadoop и обработка больших данных

Курс дает представление об основах Apache™ Hadoop® и методах разработки приложений, обрабатывающих данные, на его основе. Участники познакомятся с HDFS – стандартом де факто для долговременного надежного хранения больших объемов данных, фреймворком MapReduce, автоматически управляющим параллельным выполнением приложений на кластере, новым фреймворком YARN, а также сопутствующими проектами, составляющими экосистему Hadoop®.

  Для кого:

Курс предназначен для специалистов в области распределённой обработки больших данных

Что должен знать слушатель

  • Обязательное знание диалекта 1.8 языка Java на уровне JavaSE8Core.
  • Желательно понимание обобщённых типов Java и фреймворка коллекций Java.

Программа обучения

Модуль 1 Введение▼

  • 1.1 Hadoop и РСУБД
  • 1.2 Распределенные вычисления
  • 1.3 Краткая история Hadoop
  • 1.4 ApacheHadoop и экосистема Hadoop
  • 1.5 ВыпускиHadoop
  • 1.6 Версии MapReduceAPI
  • 1.7 Совместимость версий

Модуль 2 MapReduce▼

  • 2.1 Набор метеорологических данных
  • 2.2 Формат данных
  • 2.3 Анализ данных средствами Unix
  • 2.4 Анализ данных в Hadoop
  • 2.5 Отображение и свертка
  • 2.6 Программа MapReduce на языке Java
  • 2.7 MapReduce в перспективе
  • 2.8 Поток данных
  • 2.9 Комбинирующие функции
  • 2.10 Выполнение распределенного задания MapReduce
  • 2.11 Hadoop Streaming
  • 2.12 Hadoop Pipes
  • 2.13 Компиляция и запуск

Модуль 3 HDFS▼

  • 3.1 Строение HDFS
  • 3.2 Основные концепции HDFS
  • 3.3 Блоки
  • 3.4 Узлы имен и узлы данных
  • 3.5 HDFS Federation
  • 3.6 Высокая доступность HDFS
  • 3.7 Преодоление сбоев и изоляция
  • 3.8 Интерфейс командной строки
  • 3.9 Основные операции файловой системы
  • 3.10 Файловые системы Hadoop
  • 3.11 Интерфейсы
  • 3.12 Интерфейс Java
  • 3.13 Чтение данных Hadoop по URL-адресу
  • 3.14 Чтение данных с использованием Filesystem API
  • 3.15 Запись данных
  • 3.16 Получение информации от файловой системы
  • 3.17 Удаление данных
  • 3.18 Поток данных
  • 3.19 Чтение файла, запись в файлы
  • 3.20 Модель целостности
  • 3.21 Перемещение данных: Flume и Sqoop
  • 3.22 Параллельное копирование с использованием distcp
  • 3.23 Сбалансированность кластеров HDFS
  • 3.24 HAR
  • 3.25 Использование HAR
  • 3.26 Ограничения

Модуль 4 Ввод/вывод в Hadoop▼

  • 4.1 Целостность данных
  • 4.2 Целостность данных в HDFS
  • 4.3 Local File System
  • 4.4 hecksum File System
  • 4.5 Сжатие
  • 4.6 Кодеки
  • 4.7 Сжатие и разбиение входных данных
  • 4.8 Использование сжатия в MapReduce
  • 4.9 Сериализация
  • 4.10 Интерфейс Writable
  • 4.11 Классы Writable
  • 4.12 Пользовательские реализации Writable
  • 4.13 Программные среды сериализации

Модуль 5 Avro▼

  • 5.1 Типы данных и схемы Avro
  • 5.2 Сериализация и десериализация в памяти
  • 5.3 Файлы данных Avro
  • 5.4 Файловые структуры данных
  • 5.5 SequenceFile
  • 5.6 MapFile

Модуль 6 Разработка приложений MapReduce▼

  • 6.1 API конфигурации
  • 6.2 Объединение ресурсов
  • 6.3 Расширение переменных
  • 6.4 Настройка среды разработки
  • 6.5 Управление конфигурацией
  • 6.6 Написание модульных тестов с MRUnit
  • 6.7 Функция отображения
  • 6.8 Функция свертки
  • 6.9 Локальное выполнение с тестовыми данными
  • 6.10 Локальный запуск задания
  • 6.11 Тестирование управляющей программы
  • 6.12 Запуск в кластере
  • 6.13 Упаковка задания, запуск задания
  • 6.14 Веб-интерфейсMapReduce
  • 6.15 Получение результатов
  • 6.16 Отладка задания
  • 6.17 Журналы Hadoop
  • 6.18 Удаленная отладка
  • 6.19 Оптимизация задания
  • 6.20 Профилирование
  • 6.21 Модель Map Reduce
  • 6.22 Разложение задачи на задания MapReduce

Модуль 7 Создание кластера Hadoop▼

  • 7.1 Оборудование кластера
  • 7.2 Сетевая топология
  • 7.3 Настройка и установка кластера
  • 7.4 Создание пользователя Hadoop
  • 7.5 Установка Hadoop
  • 7.6 Тестирование установки
  • 7.7 КонфигурацияSSH
  • 7.8 Конфигурация Hadoop
  • 7.9 Управление конфигурацией
  • 7.10 Настройки окружения
  • 7.11 Важные свойства демонов Hadoop
  • 7.12 Адреса и порты демонов Hadoop
  • 7.13 Другие свойства Hadoop
  • 7.14 Создание учетных записей пользователей
  • 7.15 Конфигурация YARN
  • 7.16 Важные свойства демонов YARN
  • 7.17 Адреса и порты демонов YARN

Модуль 8 Администрирование Hadoop▼

  • 8.1 HDFS
  • 8.2 Дисковые структуры данных
  • 8.3 Безопасный режим
  • 8.4 Журналы аудита
  • 8.5 Инструменты
  • 8.6 Мониторинг
  • 8.7 Ведение журналов
  • 8.8 Метрики
  • 8.9 Сопровождение
  • 8.10 Стандартные административные процедуры
  • 8.11 Включение и исключение узлов
  • 8.12 Обновления

Модуль 9 Hive▼

  • 9.1 Оболочка Hive
  • 9.2 Пример
  • 9.3 Администрирование Hive
  • 9.4 Настройка конфигурации Hive
  • 9.5 Сервисные функции Hive
  • 9.6 Метахранилище
  • 9.7 Сравнение с традиционными базами данных
  • 9.8 Проверка схемы при чтении и записи
  • 9.9 Обновления, транзакции и индексы
  • 9.10 HiveQL
  • 9.11 Типы данных
  • 9.12 Операторы и функции
  • 9.13 Таблицы
  • 9.14 Управляемые и внешние таблицы
  • 9.15 Разделы и гнезда
  • 9.16 Форматы хранения данных
  • 9.17 Импортирование данных
  • 9.18 Модификация таблиц
  • 9.19 Удаление таблиц
  • 9.20 Запросы к данным
  • 9.21 Сортировка и агрегирование
  • 9.22 Сценарии MapReduce
  • 9.23 Подзапросы
  • 9.24 Пользовательские функции

Модуль 10 HBase▼

  • 10.1 Знакомство с Hbase
  • 10.2 История
  • 10.3 Концепции
  • 10.4 Краткий обзор модели данных
  • 10.5 Реализация
  • 10.6 Пробный запуск
  • 10.7 Клиенты
  • 10.8 Java
  • 10.9 Avro,RESTиThrift
  • 10.10 Схемы
  • 10.11 Загрузка данных
  • 10.12 Веб-запросы
  • 10.13 HBase и РСУБД
  • 10.14 Масштабирование успешного сервиса

Модуль 11 ZooKeeper▼

  • 11.1 Установка и запуск ZooKeeper
  • 11.2 Реализация списка принадлежности в ZooKeeper
  • 11.3 Создание группы
  • 11.4 Присоединение к группе
  • 11.5 Вывод списка участников группы
  • 11.6 Удаление группы
  • 11.7 Сервис ZooKeeper
  • 11.8 Модель данных
  • 11.9 Операции
  • 11.10 Реализация
  • 11.11 Согласованность данных
  • 11.12 Сеансы
  • 11.13 Состояния
  • 11.14 Построение приложений с использованием ZooKeeper
  • 11.15 Отказоустойчивое приложение ZooKeeper
  • 11.16 Блокировка
  • 11.17 Другие распределенные структуры данных и протоколы
  • 11.18 Практическое использование ZooKeeper
  • 11.19 Надежность и производительностьHadoop и РСУБД
  • 11.20 Распределенные вычисления
  • 11.21 Краткая история Hadoop
  • 11.22 ApacheHadoop и экосистема Hadoop
  • 11.23 ВыпускиHadoop
  • 11.24 Версии MapReduceAPI
  • 11.25 Совместимость версий