Главная страница » Services » Курсы » CORS: Основы Apache Spark для разработчиков
Практический курс «Основы Apache Spark для разработчиков и аналитиков Big Data»
Проектирование и реализация ETL-процессов для хранилищ данных с Apache Spark, разработка и оптимизация Spark-приложений, оркестрация заданий с AirFlow: практический курс для дата-инженеров
Код курса | Даты начала курса | Стоимость обучения | Длительность обучения | Формат обучения |
---|---|---|---|---|
CORS | по запросу |
0 руб. | ак.часов | Дистанционный |
Что такое Apache Spark
Apache Spark – это фреймворк с открытым исходным кодом для разработки приложений распределённых пакетных и потоковых вычислений над большим объемом неструктурированных и слабоструктурированных данных. Он входит в экосистему проектов Hadoop, поддерживает вычислительную модель MapReduce, но сохраняет промежуточные результаты вычислений в памяти вместо записи на диск. Поэтому Spark работает гораздо быстрее и позволяет создавать высокопроизводительные приложения, способные быстро выполнять множество операций с огромными объемами данных. Фреймворк имеет модульный состав, поддерживая различные сценарии использования распределенных приложений, от интернета вещей до машинного обучения. Поэтому Spark-приложения активно используются в различных бизнес-задачах анализа и обработки больших данных.
О курсе
2-дневный практический курс для разработчиков Apache Spark, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов Big Data, которые используют или планируют использовать Spark для обработки и анализа больших данных.
Аудитория
Практический курс по Спарк рассчитан на разработчиков Big Data, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов по большим данным, которые хотят получить опыт настройки и использования базовых компонентов Apache Spark: Low Level API, Structured API и Spark SQL.
Соотношение теории к практике 50/50
Предварительная подготовка
- Опыт работы в Unix/SQL;
- Начальный опыт программирования (Python/Scala);
- Начальный опыт в экосистеме Hadoop
Программа курса
1. Обзор Apache Spark
- Архитектура Spark
- Обзор компонентов Spark и их назначения
- Spark API и разработка программ.
2. Основные абстракции — знакомство со Spark RDD и Dataframe
- Low Level API, использование Resilient Distributed Dataset
- Structured API и основная абстракция Spark – Dataframe
- Основные трансформации и действия.
3. Работа с источниками данных
- Ввод и вывод данных в Spark
- Работа с файлами и базами данных
- Совместная работа с Apache Hive
4. Apache Spark SQL
- Получение данных из SQL-источников
- Обработка данных с помощью Spark SQL
- Интероперабельность Dataframe и SQL
5. Основы настройки и конфигурирования
- Знакомство с основными Shell
- Запуск приложений с помощью spark-submit
- Конфигурирование Spark
- Планы запросов и Web GUI
Практические занятия будут проводиться на языках Python или Scala.
Кто проводит курс
Королев Михаил
МГУ им. М.В. Ломоносова (Москва, 1992)
Профессиональные компетенции:
- Сертифицированный разработчик Spark и Hadoop (CCA Cloudera)
- Сертифицированный разработчик (Cloudera Certified Professional Data Engineer)
- Построение корпоративных хранилищ и озер данных (Cloudera CDH, Hadoop)
- Организация ETL-конвейеров (ApacheAirflow, Spark, Apache Livy)
- Поддержка инфраструктуры больших данных (Apache Hive,HBase, Kafka,Elasticsearch)
- Руководитель проектов с корпоративными данными
- Ведущий Data Engineer АО “Альфастрахование”, Москва
Если у Вас остались вопросы Вы можете позвонить к нам по телефону +7 (495) 414-11-21 или заполнить форму обратной связи на сайте.