Обучающий курс «Анализ данных с Apache Spark Streaming, Spark SQL, MLLib и GraphX»

Ближайшая дата курса | 27 ноября 2023 01 февраля 2024 |
|
Стоимость обучения | 88 000 руб. | Регистрация |
Длительность обучения | 32 ак.часов | |
Код курса | SPARK |
4-дневный практический курс для разработчиков Apache Spark, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов Big Data, которые используют Spark SQL, потоковую обработку Spark Streaming, машинное обучение MLLib и построение графов Spark GraphX.
Что такое Apache Spark и где это используется
Apache Spark – это Big Data фреймворк с открытым исходным кодом для распределённой пакетной и потоковой обработки неструктурированных и слабоструктурированных данных, входящий в экосистему проектов Hadoop.
Спарк состоит из следующих компонентов:
- Ядро (Core);
- SQL – инструмент для аналитической обработки данных с помощью SQL-запросов;
- Streaming – надстройка для обработки потоковых данных;
- MLlib – набор библиотек машинного обучения (Machine Learning);
- GraphX – модуль распределённой обработки графов.
Благодаря такому разнообразию инструментов интерактивной аналитики данных, Спарк активно используется в системах интернета вещей (IoT/IIoT), а также в различных бизнес-приложениях, в т.ч. для машинного обучения. Например, для прогнозирования оттока клиентов и оценки финансовых рисков.
Apache Spark может работать как в среде кластера Hadoop под управлением YARN, так и без компонентов ядра хадуп, в частности, на базе системы управления кластером Mesos. Спарк поддерживает несколько популярных распределённых систем хранения данных: HDFS, OpenStack Swift, Cassandra, Amazon S3. Также Spark предоставляет API-интерфейсы для часто используемых в области Big Data языков программирования: Java, Scala, Python и R.
Длительность: 32 ак. часов
О курсе
4х-дневный интенсивный практический курс для разработчиков Apache Spark, дата инженеров и аналитиков данных, Data Scientist s и других специалистов Big Data, которые используют Spark SQL, потоковую обработку Spark Streaming, машинное обучение M L Lib и построение графов Spark GraphX.
Аудитория
Разработчики Big Data, дата инженеры и аналитики данных, Data Scientists и другие специалисты по большим данным, которые хотят получить опыт настройки и использования компонентов Apache Spark: Spark Core, Spark SQL, Spark Streaming, Spark M LL ib и Spark GraphX.
Соотношение теории к практике 40/60
Предварительная подготовка
- Unix – уверенное владение командной строкой bash, знание основных команд, принципов работы файловой системы
- SQL – написание запросов среднего уровня сложности
- Python – опыт программирования от 2 лет
- Экосистема Hadoop – знание основных компонент, понимание их ролей и взаимосвязей
Программа курса
1. Обзор Apache Spark
- Архитектура Spark. Обзор компонентов Spark и их назначения
2. Основные абстракции Apache Spark
- Трансформации и действия, Lazy Evaluation
3. Знакомство с Dataframes
- Structured API и основная абстракция Spark – Dataframe
4. Знакомство со Spark RDD
- Low Level API, использование Resilient Distributed Dataset
5. Apache Spark SQL
- Получение данных из SQL-источников и обработка данных с помощью Spark SQL
- Отправка данных в SQL СУБД и работа с Hive QL
- Spark SQL и Hadoop
6. Работа с источниками данных
- Ввод и вывод в Apache Spark
- Работа с файлами и базами данных
7. Производительность и параллелизм в Apache Spark
- Планы выполнения запроса: логические и физические
8. Конфигурирование Apache Spark
- Принципы конфигурирования и основные настройки
9. Spark Streaming
- Разница работы в режимах OLAP и OLTP. Основной workflow
- Виды Spark Streams. Особенности исполнения streaming кода
Checkpoint в Spark Streaming
10. GraphX
- Задачи графов в программировании. Место графов в модели распределенных вычислений
- Представление графов в GraphX. Операции с графами
11. MLLib
- Задачи машинного обучения и проблематика больших данных
- Основные возможности Spark MLLib
12. Обработка слабоструктурированных данных
- Работа с JSON файлами и строками
- Обработка информации, представленной в виде XML