Практический курс «Основы Apache Spark для разработчиков и аналитиков Big Data»

Проектирование и реализация ETL-процессов для хранилищ данных с Apache Spark, разработка и оптимизация Spark-приложений, оркестрация заданий с AirFlow: практический курс для дата-инженеров
Код курса Даты начала курса Стоимость обучения Длительность обучения Формат обучения
CORS
22 сентября 2025
01 декабря 2025
48 000 руб. 16 ак.часов Дистанционный

Что такое Apache Spark

Apache Spark – это фреймворк с открытым исходным кодом для разработки приложений распределённых пакетных и потоковых вычислений над большим объемом неструктурированных и слабоструктурированных данных. Он входит в экосистему проектов Hadoop, поддерживает вычислительную модель MapReduce, но сохраняет промежуточные результаты вычислений в памяти вместо записи на диск. Поэтому Spark работает гораздо быстрее и позволяет создавать высокопроизводительные приложения, способные быстро выполнять множество операций с огромными объемами данных. Фреймворк имеет модульный состав, поддерживая различные сценарии использования распределенных приложений, от интернета вещей до машинного обучения. Поэтому Spark-приложения активно используются в различных бизнес-задачах анализа и обработки больших данных.

О курсе

2-дневный практический курс для разработчиков Apache Spark, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов Big Data, которые используют или планируют использовать Spark для обработки и анализа больших данных.

Аудитория

Практический курс по Спарк рассчитан на разработчиков Big Data, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов по большим данным, которые хотят получить опыт настройки и использования базовых компонентов Apache Spark: Low Level API, Structured API и Spark SQL.

Соотношение теории к практике 50/50

Предварительная подготовка

  • Опыт работы в Unix/SQL;
  • Начальный опыт программирования (Python/Scala);
  • Начальный опыт в экосистеме Hadoop

Программа курса

1. Обзор Apache Spark
  • Архитектура Spark
  • Обзор компонентов Spark и их назначения
  • Spark API и разработка программ.
2. Основные абстракции — знакомство со Spark RDD и Dataframe
  • Low Level API, использование Resilient Distributed Dataset
  • Structured API и основная абстракция Spark – Dataframe
  • Основные трансформации и действия.
3. Работа с источниками данных
  • Ввод и вывод данных в Spark
  • Работа с файлами и базами данных
  • Совместная работа с Apache Hive
4. Apache Spark SQL
  • Получение данных из SQL-источников
  • Обработка данных с помощью Spark SQL
  • Интероперабельность Dataframe и SQL
5. Основы настройки и конфигурирования
  • Знакомство с основными Shell
  • Запуск приложений с помощью spark-submit
  • Конфигурирование Spark
  • Планы запросов и Web GUI

Практические занятия будут проводиться на языках Python или Scala.

Кто проводит курс

prepod-mihail-korolev.jpg
Преподаватель Школы Больших Данных

Королев Михаил

МГУ им. М.В. Ломоносова (Москва, 1992)
Профессиональные компетенции:
Если у Вас остались вопросы Вы можете позвонить к нам по телефону +7 (495) 414-11-21  или заполнить форму обратной связи на сайте.
Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.

Поиск по сайту