В данной статье мы сосредоточимся на общих переменных, которые поддерживаются в Apache Spark. Рассмотрим особенности разных типов общих переменных и их практическое применение в вычислительных...
Как происходит сериализация данных в Apache Spark
В этой статье обсудим важную тему сериализации данных в распределенных приложениях, созданных на базе распределенной фреймворка Apache Spark для работы с Big Data. Читайте далее,...
Какие самые распространенные типы файлов в Spark
Сегодня поговорим о том, с какими наиболее распространенными форматами файлов способен поддерживать работу фреймворк Spark. Читайте далее про особенности обработки Big Data в Spark с...
Что такое RDD и для чего это нужно фреймворку Spark
Набор RDD (Resilient Distributed Dataset) – это неизменяемая коллекция объектов данных. Каждый такой набор делится на определенное количество частей, которые обрабатываются различными узлами в кластере....
Соединяй и властвуй: основы JOIN
Иногда приходится работать с несколькими связанными таблицами сразу, причем требуется их каким-то образом соединять. В этом случае вам поможет операция JOIN в PySpark. Сегодня расскажем...
Оконные функции: LAG и LEAD
В предыдущей статье мы говорили о ранжирующих функциях из семейство оконных (window function) в PySpark. В этой статье пойдет речь об аналитических функциях LEAD и...
Зачем вам вычислять ранг RANK и DENSE RANK
В прошлой статье мы говорили о ранжирующей функции ROWS NUMBER в PySpark. Сегодня поговорим о RANK DENSE_RANK, а также узнаем, чем они различаются. Данные с...
Зачем вам считать строки ROW NUMBER
В прошлый раз мы говорили о использовании агрегирующих функциях с использованием окон (window function) в PySpark. Сегодня поговорим об одной из ранжирующих функций ROW NUMBER,...
Как посчитать скользящую среднюю
Скользящая средняя (moving average) часто применяется для анализа и определения трендов в данных. Она рассчитывается как среднее текущего и заданного числа предыдущих значений за некоторый...
Зачем вам оконные функции в Apache Spark
Apache Spark SQL поддерживает оконные функции (window functions), которые могут пригодиться для различных задач, например для получения нарастающего значения или скользящей средней. В этой статье...