Практический курс «Основы Apache Spark для разработчиков и аналитиков Big Data»

Проектирование и реализация ETL-процессов для хранилищ данных с Apache Spark, разработка и оптимизация Spark-приложений, оркестрация заданий с AirFlow: практический курс для дата-инженеров
Код курса Даты начала курса Стоимость обучения Длительность обучения Формат обучения
CORS
по запросу
0 руб. ак.часов Дистанционный

Что такое Apache Spark

Apache Spark – это фреймворк с открытым исходным кодом для разработки приложений распределённых пакетных и потоковых вычислений над большим объемом неструктурированных и слабоструктурированных данных. Он входит в экосистему проектов Hadoop, поддерживает вычислительную модель MapReduce, но сохраняет промежуточные результаты вычислений в памяти вместо записи на диск. Поэтому Spark работает гораздо быстрее и позволяет создавать высокопроизводительные приложения, способные быстро выполнять множество операций с огромными объемами данных. Фреймворк имеет модульный состав, поддерживая различные сценарии использования распределенных приложений, от интернета вещей до машинного обучения. Поэтому Spark-приложения активно используются в различных бизнес-задачах анализа и обработки больших данных.

О курсе

2-дневный практический курс для разработчиков Apache Spark, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов Big Data, которые используют или планируют использовать Spark для обработки и анализа больших данных.

Аудитория

Практический курс по Спарк рассчитан на разработчиков Big Data, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов по большим данным, которые хотят получить опыт настройки и использования базовых компонентов Apache Spark: Low Level API, Structured API и Spark SQL.

Соотношение теории к практике 50/50

Предварительная подготовка

  • Опыт работы в Unix/SQL;
  • Начальный опыт программирования (Python/Scala);
  • Начальный опыт в экосистеме Hadoop

Программа курса

1. Обзор Apache Spark
  • Архитектура Spark
  • Обзор компонентов Spark и их назначения
  • Spark API и разработка программ.
2. Основные абстракции — знакомство со Spark RDD и Dataframe
  • Low Level API, использование Resilient Distributed Dataset
  • Structured API и основная абстракция Spark – Dataframe
  • Основные трансформации и действия.
3. Работа с источниками данных
  • Ввод и вывод данных в Spark
  • Работа с файлами и базами данных
  • Совместная работа с Apache Hive
4. Apache Spark SQL
  • Получение данных из SQL-источников
  • Обработка данных с помощью Spark SQL
  • Интероперабельность Dataframe и SQL
5. Основы настройки и конфигурирования
  • Знакомство с основными Shell
  • Запуск приложений с помощью spark-submit
  • Конфигурирование Spark
  • Планы запросов и Web GUI

Практические занятия будут проводиться на языках Python или Scala.

Кто проводит курс

prepod-mihail-korolev.jpg
Преподаватель Школы Больших Данных

Королев Михаил

МГУ им. М.В. Ломоносова (Москва, 1992)
Профессиональные компетенции:
Если у Вас остались вопросы Вы можете позвонить к нам по телефону +7 (495) 414-11-21  или заполнить форму обратной связи на сайте.
Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.

Поиск по сайту