В данной статье мы сосредоточимся на общих переменных, которые поддерживаются в Apache Spark. Рассмотрим особенности разных типов общих переменных и их практическое применение в вычислительных...
Опрос на знание основ работы фреймворка Spark: открытый общий комплексный тест для начинающих
Чтобы самостоятельное обучение по Spark стало еще интереснее, сегодня мы предлагаем вам общий тест по основам работы распределенного фреймворка Apache Spark, включая его особенности, структуры,...
10 вопросов на знание основ работы распределенности в Spark: открытый общий комплексный тест для начинающих
Чтобы самостоятельное обучение по Spark стало еще интереснее, сегодня мы предлагаем вам общий тест по основам работы распределенности в Apache Spark, включая ее особенности, структуру,...
10 вопросов на знание основ работы фреймворка Spark: открытый общий комплексный тест для начинающих
Чтобы самостоятельное обучение по Spark стало еще интереснее, сегодня мы предлагаем вам общий тест по основам работы распределенного фреймворка Apache Spark, включая его особенности, структуры,...
Что такое RDD и для чего это нужно фреймворку Spark
Набор RDD (Resilient Distributed Dataset) – это неизменяемая коллекция объектов данных. Каждый такой набор делится на определенное количество частей, которые обрабатываются различными узлами в кластере....
10 вопросов на знание основ работы со структурами данных в Spark: открытый интерактивный тест для начинающих
Чтобы самостоятельное обучение по Spark стало еще интереснее, сегодня мы предлагаем вам простой тест по основам работы со структурами данных в распределенном фреймворке Apache Spark,...
10 вопросов на знание основ работы фреймворка Spark: открытый комплексный тест для начинающих
Чтобы самостоятельное обучение по Spark стало еще интереснее, сегодня мы предлагаем вам комплексный тест по основам работы распределенного фреймворка Apache Spark, включая его особенности, структуры,...
Соединяй и властвуй: основы JOIN
Иногда приходится работать с несколькими связанными таблицами сразу, причем требуется их каким-то образом соединять. В этом случае вам поможет операция JOIN в PySpark. Сегодня расскажем...
Оконные функции: LAG и LEAD
В предыдущей статье мы говорили о ранжирующих функциях из семейство оконных (window function) в PySpark. В этой статье пойдет речь об аналитических функциях LEAD и...
Зачем вам вычислять ранг RANK и DENSE RANK
В прошлой статье мы говорили о ранжирующей функции ROWS NUMBER в PySpark. Сегодня поговорим о RANK DENSE_RANK, а также узнаем, чем они различаются. Данные с...