Обработка данных с Microsoft HDInsight
Курс предназначен для инженеров, архитекторов, специалистов по подготовке данных, а также разработчиков, которые хотят использовать HDInsight и язык R в своих проектах. Главная задача курса — предоставить слушателям знания и навыки, необходимые для работы с массивами больших данных, планирования и внедрения рабочих потоков с помощью HDInsight.
Для кого:
Основная аудитория курса: инженеры, архитекторы, специалисты по подготовке данных и разработчики.Что должен знать слушатель
Требования для прохождения курса:
Пройденный курс 20774: Облачная аналитика Big Data при помощи машинного обучения в Azure или эквивалентная подготовка.
Успешное окончание курса 20773: Анализ данных с помощью Microsoft R или эквивалентная подготовка.
Навык анализа данных на языке SQL.
Результаты обучения
После прохождения этого курса студенты смогут:
описывать Hadoop, MapReduce, HDInsight;
описывать типы кластеров HDInsight;
описывать создание, управление и удаление кластеров HDInsight с помощью PowerShell;
описывать, как разрешать доступ пользователей к объектам;
описывать конфигурации и архитектуру хранилища HDInsight;
проводить мониторинг ресурсов с Operations management suite;
выполнять запросы с Hive и Pig;
описывать использование ETL и Spark;
внедрять интерактивные запросы;
выполнять интерактивную обработку данных с помощью Apache Phoenix;
управлять задачами потоковой аналитики;
создавать приложения для обработки структурированных потоков в Spark;
использовать потоковые данные в Storm;
объяснять, как работает язык R;
преобразовывать и очищать наборы данных.