Может случиться так, что вам нужно объединить два DataFrame в PySpark. Как это можно сделать? В этой статье мы расскажем, как объединить две или более...
10 вопросов на знание основ работы с ML в Spark MLlib: открытый интерактивный тест для начинающих изучать машинное обучение
Чтобы самостоятельное обучение по Spark стало еще интереснее, сегодня мы предлагаем вам простой комплексный тест по основам работы с машинным обучением в распределенном фреймворке Apache...
Фильтрация данных в Apache Spark: лучшие практики
В прошлой статье мы говорили о вычислении SQL-выражений в Apache Spark, а также немного затронули тему фильтрации данных. В этот раз углубимся в эту тему,...
Как переименовать столбцы в Apache Spark
Встречались ли с ситуациями, когда имя столбца в PySpark неправильно написано или содержит пробелы, а вы хотели бы его переименовать? Тогда эта статья для вас....
5 способов вычисления SQL-выражений в Spark
Если вы знаете SQL, но еще не освоились с фреймворком Apache Spark, то вы можете выполнять запросы различными способами. В этой статье вы узнаете, как...
Из строк в столбцы с помощью функции pivot
В этой статье мы поговорим о способе преобразования столбцов в строки в Apache Spark. Для этого воспользуемся специальным методом (функцией) — pivot. Группировка не преобразует...
10 вопросов на знание основ GBT-алгоритма в Spark: открытый интерактивный тест для начинающих изучать машинное обучение
Чтобы самостоятельное обучение по Spark стало еще интереснее, сегодня мы предлагаем вам простой тест по основам работы с алгоритмом градиентного бустинга (GBT) в распределенном фреймворке...