Главная страница » Services » Курсы » SPARK: Анализ данных с Apache Spark
Анализ данных с Apache Spark Streaming, Spark SQL, MLLib и GraphX
4-дневный практический курс для разработчиков Apache Spark, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов Big Data, которые используют Spark SQL, потоковую обработку Spark Streaming, машинное обучение MLLib и построение графов Spark GraphX.
Код курса | Даты начала курса | Стоимость обучения | Длительность обучения | Формат обучения |
---|---|---|---|---|
SPARK | по запросу |
0 руб. | ак.часов | Дистанционный |
Что такое Apache Spark и где это используется
Apache Spark – это Big Data фреймворк с открытым исходным кодом для распределённой пакетной и потоковой обработки неструктурированных и слабоструктурированных данных, входящий в экосистему проектов Hadoop.
Спарк состоит из следующих компонентов:
- Ядро (Core);
- SQL – инструмент для аналитической обработки данных с помощью SQL-запросов;
- Streaming – надстройка для обработки потоковых данных;
- MLlib – набор библиотек машинного обучения (Machine Learning);
- GraphX – модуль распределённой обработки графов.
Благодаря такому разнообразию инструментов интерактивной аналитики данных, Спарк активно используется в системах интернета вещей (IoT/IIoT), а также в различных бизнес-приложениях, в т.ч. для машинного обучения. Например, для прогнозирования оттока клиентов и оценки финансовых рисков.
Apache Spark может работать как в среде кластера Hadoop под управлением YARN, так и без компонентов ядра хадуп, в частности, на базе системы управления кластером Mesos. Спарк поддерживает несколько популярных распределённых систем хранения данных: HDFS, OpenStack Swift, Cassandra, Amazon S3. Также Spark предоставляет API-интерфейсы для часто используемых в области Big Data языков программирования: Java, Scala, Python и R.
Кому нужны курсы по Apache Spark
Практический курс по Спарк рассчитан на разработчиков Big Data, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов по большим данным, которые хотят получить опыт настройки и использования компонентов Apache Spark: Spark Core, Spark SQL, Spark Streaming, Spark MLLib и Spark GraphX.
Предварительный уровень подготовки:
- Знание базовых команд Linux (опыт работы с командной строкой, файловой системой , POSIX, текстовыми редакторами vi, nano)
- Начальный опыт программирования (Python/Java)
- Начальный опыт в экосистеме Hadoop
Успешно окончив курсы по Spark в нашем лицензированном учебном центре «Школа Больших Данных», вы получите сертификат или удостоверение установленного образца, которые могут засчитываться в качестве свидетельств о повышении квалификации.
Как устроено обучение Spark в «Школе Больших Данных»
Продолжительность: 4 дня, 32 академических часа
Соотношение теории к практике 40/60
Практический курс «Анализ и обработка данных с Apache Spark, включая Streaming, Spark SQL, MLLib и GraphX» представляет собой 4-дневный интенсивный тренинг по использованию распределенной платформы ApacheSpark для работы с большими массивами неструктурированных данных и потоковой обработки информации.
Обучение Спарк содержит теоретический минимум, необходимый для эффективного использования всех компонентов Apache Spark (Spark Core, Spark Streaming, Spark SQL, MLLib и GraphX) для пакетной и потоковой обработки данных. Практическая часть включает запуск и настройку компонентов, работу в среде Jupyter Notebook, прикладное использование Спарк для разработки собственных распределенных приложений пакетной и потоковой обработки информации и анализа больших данных.
На курсе вы научитесь:
- понимать особенности использования RDD и dataframe;
- обращаться к большим данным с использование SQL или HiveQL;
- использовать Spark Streaming для создания распределенных приложений потоковой обработки больших данных;
- настраивать и использовать компоненты MLLib и GraphX;
- обрабатывать слабоструктурированные данные, представленные в форматах JSON или XML.
Программа курса "Анализ данных с Apache Spark Streaming, Spark SQL, MLLib и GraphX"
1. Обзор Apache Spark
Архитектура Spark. Обзор компонентов Spark и их назначения
2. Основные абстракции Apache Spark
Трансформации и действия, Lazy Evaluation
3. Знакомство с Dataframes
Structured API и основная абстракция Spark – Dataframe
4. Знакомство со Spark RDD
Low Level API, использование Resilient Distributed Dataset
5. Apache Spark SQL
Получение данных из SQL-источников и обработка данных с помощью Spark SQL
Отправка данных в SQL СУБД и работа с Hive QL
Spark SQL и Hadoop
6. Работа с источниками данных
Ввод и вывод в Apache Spark
Работа с файлами и базами данных
7. Производительность и параллелизм в Apache Spark
Планы выполнения запроса: логические и физические
8. Конфигурирование Apache Spark
Принципы конфигурирования и основные настройки
9. Spark Streaming
Разница работы в режимах OLAP и OLTP. Основной workflow
Виды Spark Streams. Особенности исполнения streaming кода
Checkpoint в Spark Streaming
10. GraphX
Задачи графов в программировании. Место графов в модели распределенных вычислений
Представление графов в GraphX. Операции с графами
11. MLLib
Задачи машинного обучения и проблематика больших данных
Основные возможности Spark MLLib
12. Обработка слабоструктурированных данных
Работа с JSON файлами и строками
Обработка информации, представленной в виде XML
Кто проводит курс
Королев Михаил
МГУ им. М.В. Ломоносова (Москва, 1992)
Профессиональные компетенции:
- Сертифицированный разработчик Spark и Hadoop (CCA Cloudera)
- Сертифицированный разработчик (Cloudera Certified Professional Data Engineer)
- Построение корпоративных хранилищ и озер данных (Cloudera CDH, Hadoop)
- Организация ETL-конвейеров (ApacheAirflow, Spark, Apache Livy)
- Поддержка инфраструктуры больших данных (Apache Hive,HBase, Kafka,Elasticsearch)
- Руководитель проектов с корпоративными данными
- Ведущий Data Engineer АО “Альфастрахование”, Москва