Архивы Статьи

31Мар

apache spark курсы, bigdata курсы, курсы администрирования Hadoop, курсы администрирования hadoop, курсы администрирования spark, курс dataframes spark, spark apache, hive, обучение apache spark, администрирование spark кластера, Spark, фреймворк, СУБД, RDBMS, исполнители, таблица, Big Data

10 вопросов на знание основ Spark с внешними источниками: открытый интерактивный тест для начинающих изучать Spark SQL

Чтобы самостоятельное обучение по Spark стало еще интереснее, сегодня мы предлагаем вам простой тест по основам работы с внешними источниками в распределенном фреймворке Apache Spark,...

29Мар

Автор Роман Котюбеев

Зачем вам функции repartition и coalesce

Мы уже говорили о создании партиций (partitions) на диске с помощью partitionBy. В Apache Spark есть еще функции для работы с партициями. Сегодня рассмотрим разницу...

24Мар

Автор Роман Котюбеев

4 совета по оптимизации Apache Spark

В прошлый раз мы рассмотрели 6 способов повышения производительности Apache Spark: кэширование, трансляция, бакетирование, минимизация перетасовки (shuffle), применение оконных функций и контрольных точек. Дадим еще...

22Мар

Автор Роман Котюбеев

6 способов повышения производительности в Apache Spark

Apache Spark применяется для работы с большими данными (Big Data), поэтому встает вопрос: как увеличить скорости обработки этих данных. В этой статье мы рассмотрим 5...

17Мар

Автор Роман Котюбеев

Зачем вам бакетирование в Apache Spark

В предыдущей статье мы поговорили о разнице между партициями и бакетами Apache Spark. Сегодня на реальном примере покажем, как бакетирование помогает писать оптимизированные запросы без...

15Мар

Автор Роман Котюбеев

В чем разница между партициями и бакетами

При оптимизации работы Apache Spark рекомендуют делать партиции и бакеты. Однако в чем разница между партицированием и бакетированием? В этой статье мы разберемся в этом....

08Мар

Автор Роман Котюбеев

Как разбить датасет на партиции с помощью partitionby

Чтение больших данных (Big Data) занимает время. Одним из способов работы с большими объемам является разбиение большого датасет на части, или партиции. Сегодня мы поговорим...

24Фев

Автор Роман Котюбеев

Ускоритель RAPIDS 22.02 и 21.10 для Apache Spark

В прошлой статье мы говорили об ускорителе RAPIDS для Apache Spark. Сегодня рассмотрим, что появилось в версии RAPIDS 21.10 (релиз за январь) и 22.02 (релиз...

22Фев

Автор Роман Котюбеев

Вы этого ждали: Apache Spark 3.0 работает с GPU

NVIDIA работает вместе с разработчиками библиотек Apache Spark и RAPIDS для реализации ускорения GPU. Наконец-то в Apache Spark можно проводить обработку данных на GPU. В...

17Фев

Автор Роман Котюбеев

Функции PySpark SQL для работы с JSON

В предыдущий раз мы говорили о чтение и записи JSON файлов в PySpark. Сегодня затронем функции для работы с JSON. Читайте в этой статье: как...

Пн	Вт	Ср	Чт	Пт	Сб	Вс
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

10 вопросов на знание основ Spark с внешними источниками: открытый интерактивный тест для начинающих изучать Spark SQL

Зачем вам функции repartition и coalesce

4 совета по оптимизации Apache Spark

6 способов повышения производительности в Apache Spark

Зачем вам бакетирование в Apache Spark

В чем разница между партициями и бакетами

Как разбить датасет на партиции с помощью partitionby

Ускоритель RAPIDS 22.02 и 21.10 для Apache Spark

Вы этого ждали: Apache Spark 3.0 работает с GPU

Функции PySpark SQL для работы с JSON

ООО “УЦ Коммерсант”

О компании

Документы

Проекты