Обработка данных с Microsoft HDInsight

Курс предназначен для инженеров, архитекторов, специалистов по подготовке данных, а также разработчиков, которые хотят использовать HDInsight и язык R в своих проектах. Главная задача курса — предоставить слушателям знания и навыки, необходимые для работы с массивами больших данных, планирования и внедрения рабочих потоков с помощью HDInsight.

  Для кого:

Основная аудитория курса: инженеры, архитекторы, специалисты по подготовке данных и разработчики.

Что должен знать слушатель

Требования для прохождения курса:
  • Пройденный курс 20774: Облачная аналитика Big Data при помощи машинного обучения в Azure или эквивалентная подготовка.
  • Успешное окончание курса 20773: Анализ данных с помощью Microsoft R или эквивалентная подготовка.
  • Навык анализа данных на языке SQL.

  • Результаты обучения

    После прохождения этого курса студенты смогут:
  • описывать Hadoop, MapReduce, HDInsight;
  • описывать типы кластеров HDInsight;
  • описывать создание, управление и удаление кластеров HDInsight с помощью PowerShell;
  • описывать, как разрешать доступ пользователей к объектам;
  • описывать конфигурации и архитектуру хранилища HDInsight;
  • проводить мониторинг ресурсов с Operations management suite;
  • выполнять запросы с Hive и Pig;
  • описывать использование ETL и Spark;
  • внедрять интерактивные запросы;
  • выполнять интерактивную обработку данных с помощью Apache Phoenix;
  • управлять задачами потоковой аналитики;
  • создавать приложения для обработки структурированных потоков в Spark;
  • использовать потоковые данные в Storm;
  • объяснять, как работает язык R;
  • преобразовывать и очищать наборы данных.

  • Программа обучения

    Модуль 1 Начало работы с HDInsight▼

    • 1.1 Большие данные
    • 1.2 Hadoop
    • 1.3 MapReduce
    • 1.4 HDInsight
    • Лаб. раб. Запросы к большим данным

    Модуль 2 Развертывание кластеров HDInsight▼

    • 2.1 Типы кластеров HDInsight
    • 2.2 Управление кластерами HDInsight
    • 2.3 Управление кластерами HDInsight с помощью PowerShell
    • Лаб. раб. Управление кластерами HDInsight в Azure

    Модуль 3 Авторизация пользователей для доступа к ресурсам▼

    • 3.1 Недоменные кластеры
    • 3.2 Настройка кластера HDInsight, подключенного к домену
    • 3.3 Управление подключенным к домену кластером HDInsight
    • Лаб. раб. Авторизация пользователей для доступа к ресурсам

    Модуль 4 Загрузка данных в HDInsight▼

    • 4.1 Хранилище HDInsigh
    • 4.2 Средства загрузки данных
    • 4.3 Производительность и надёжность
    • Лаб. раб. Загрузка данных в HDInsight

    Модуль 5 Поиск и устранение неисправностей в HDInsight▼

    • 5.1 Анализ журналов
    • 5.2 Журналы YARN
    • 5.3 Дампы кучи (Heap)
    • 5.4 Operations management suite
    • Лаб. раб. Поиск и устранение неисправностей в HDInsight

    Модуль 6 Внедрение пакетных решений▼

    • 6.1 Хранилище Apache Hive
    • 6.2 Запросы с Hive и Pig
    • 6.3 Подключение HDInsight
    • Лаб. раб. Резервное копирование баз данных SQL Server

    Модуль 7 Проектирование пакетных решений ETL для больших данных с помощью Spark▼

    • 7.1 Что такое Spark?
    • 7.2 ETL и Spark
    • 7.3 Производительность Spark
    • Лаб.раб. Проектирование пакетных решений ETL для больших данных с помощью Spark

    Модуль 8 Анализ данных со Spark SQL▼

    • 8.1 Внедрение интерактивных запросов
    • 8.2 Проведение исследовательского анализа данных
    • Лаб. раб. Анализ данных со Spark SQL

    Модуль 9 Анализ данных с помощью Hive и Phoenix▼

    • 9.1 Внедрение интерактивных запросов для больших данных с помощью Hive
    • 9.2 Проведение исследовательского анализа данных с помощью Hive
    • 9.3 Выполнение интерактивной обработки данных с помощью Apache Phoenix
    • Лаб.раб. Анализ данных с помощью Hive и Phoenix

    Модуль 10 Потоковая аналитика▼

    • 10.1 Потоковая аналитика
    • 10.2 Обработка потоковых данных из потоковой аналитики
    • 10.3 Управление задачами потоковой аналитики
    • Лаб.раб. Внедрение потоковой аналитики

    Модуль 11 Spark Streaming и DStream API▼

    • 11.1 Обзор когнитивных служб
    • 11.2 DStream
    • 11.3 Создание приложений для обработки структурированных потоков в Spark
    • 11.4 Стабильность и визуализация
    • Лаб.раб. Использование DStream API для создания приложений Spark Streaming

    Модуль 12 Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm▼

    • 12.1 Долгохранимые данные
    • 12.2 Потоковые данные в Storm
    • 12.3 Создание топологии Storm
    • 12.4 Настройка Apache Storm
    • Лаб.раб. Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm

    Модуль 13 Анализ данных с помощью Spark SQL▼

    • 13.1 Внедрение интерактивных запросов
    • 13.2 Проведение исследовательского анализа данных
    • Лаб.раб. Использование R-сервисов машинного обучения