Практический курс «Потоковая обработка в Apache Spark»

Ближайшая дата курса | 19 октября 2023 11 января 2024 |
|
Стоимость обучения | 44 000 руб. | Регистрация |
Длительность обучения | 16 ак.часов | |
Код курса | SPOT |
О курсе
2-дневный практический курс для разработчиков Apache Spark, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов Big Data, которые используют или планируют использовать Spark для обработки и анализа больших данныхАудитория
Практический курс по потоковой обработке с использованием Спарк рассчитан на разработчиков Big Data, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов по большим данным, которые хотят получить опыт настройки и использования механизмов потоковой обработки в спарк, с видами источников и нюансами практического использования Structured Streaming. Соотношение теории к практике 50/50 Предварительная подготовка- Опыт работы в Unix/SQL;
- Начальный опыт программирования (Python/Java);
- Знания в объеме, аналогичном курсу Core Spark
- Начальный опыт в экосистеме Hadoop
- Базовые знания Kafka
Программа курса
1. Введение в потоковую обработку- Потоковая и пакетная обработка данных
- Особенности потоковой обработки
- Надежность и потоковая обработка.
- Два вида потоков (на основе RDD и Dataframe)
- Парадигма потоковой обработки в Structured Streaming
- Источники (sources и sink).
- Трансформации и действия в Apache Spark
- Объединение данных в Spark (join)
- Особенности использования трансформаций при работе с потоковыми данными
- Файловый источник данных
- Apache Kafka как источник данных
- Другие источники потоковых данных
- Механизм checkpoint в Apache Spark
- Настройка streaming checkpoint