Главная страница » Services » Курсы » CORS: Основы Apache Spark для разработчиков

Практический курс «Основы Apache Spark для разработчиков и аналитиков Big Data»

Проектирование и реализация ETL-процессов для хранилищ данных с Apache Spark, разработка и оптимизация Spark-приложений, оркестрация заданий с AirFlow: практический курс для дата-инженеров

Код курса	Даты начала курса	Стоимость обучения	Длительность обучения	Формат обучения
CORS	21 сентября 2026 14 декабря 2026	51 200 руб.	16 ак.часов	Дистанционный

Что такое Apache Spark

Apache Spark – это фреймворк с открытым исходным кодом для разработки приложений распределённых пакетных и потоковых вычислений над большим объемом неструктурированных и слабоструктурированных данных. Он входит в экосистему проектов Hadoop, поддерживает вычислительную модель MapReduce, но сохраняет промежуточные результаты вычислений в памяти вместо записи на диск. Поэтому Spark работает гораздо быстрее и позволяет создавать высокопроизводительные приложения, способные быстро выполнять множество операций с огромными объемами данных. Фреймворк имеет модульный состав, поддерживая различные сценарии использования распределенных приложений, от интернета вещей до машинного обучения. Поэтому Spark-приложения активно используются в различных бизнес-задачах анализа и обработки больших данных.

О курсе

2-дневный практический курс для разработчиков Apache Spark, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов Big Data, которые используют или планируют использовать Spark для обработки и анализа больших данных.

Аудитория

Практический курс по Спарк рассчитан на разработчиков Big Data, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов по большим данным, которые хотят получить опыт настройки и использования базовых компонентов Apache Spark: Low Level API, Structured API и Spark SQL.

Соотношение теории к практике 50/50

Предварительная подготовка

Опыт работы в Unix/SQL;
Начальный опыт программирования (Python/Scala);
Начальный опыт в экосистеме Hadoop

Программа курса

1. Обзор Apache Spark

Архитектура Spark
Обзор компонентов Spark и их назначения
Spark API и разработка программ.

2. Основные абстракции — знакомство со Spark RDD и Dataframe

Low Level API, использование Resilient Distributed Dataset
Structured API и основная абстракция Spark – Dataframe
Основные трансформации и действия.

3. Работа с источниками данных

Ввод и вывод данных в Spark
Работа с файлами и базами данных
Совместная работа с Apache Hive

4. Apache Spark SQL

Получение данных из SQL-источников
Обработка данных с помощью Spark SQL
Интероперабельность Dataframe и SQL

5. Основы настройки и конфигурирования

Знакомство с основными Shell
Запуск приложений с помощью spark-submit
Конфигурирование Spark
Планы запросов и Web GUI

Практические занятия будут проводиться на языках Python или Scala.

Скачать программу в формате PDF243 КБ

Кто проводит курс

Королев Михаил

МГУ им. М.В. Ломоносова (Москва, 1992)

Профессиональные компетенции:

Сертифицированный разработчик Spark и Hadoop (CCA Cloudera)
Сертифицированный разработчик (Cloudera Certified Professional Data Engineer)
Построение корпоративных хранилищ и озер данных (Cloudera CDH, Hadoop)
Организация ETL-конвейеров (ApacheAirflow, Spark, Apache Livy)
Поддержка инфраструктуры больших данных (Apache Hive,HBase, Kafka,Elasticsearch)
Руководитель проектов с корпоративными данными
Ведущий Data Engineer АО “Альфастрахование”, Москва

Если у Вас остались вопросы Вы можете позвонить к нам по телефону +7 (495) 414-11-21 или заполнить форму обратной связи на сайте.

Website Nickname

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.