Hadoop – это фреймворк (набор библиотек) для распределенной обработки больших данных
JOIN
JOIN — это операция по соединению двух таблиц по заданному полю (ключу) в Spark SQL. Является аналогом merge в Python-библиотеки Pandas. Spark поддерживает все виды...
Partition
Partition (партиция) — это некая часть исходных данных, полученная в ходе разбиения датасета в Apache Spark или Hive. Процедура разбиения на партиции называется партицированием (partitioning)....
Shuffle
Перетасовка, или Shuffle, — это операция перемещения данных по узлам в результате выполнения операций соединения или агрегации Apache Spark. Её можно наблюдать при использовании преобразований...
Spark NLP
Spark NLP - это библиотека обработки естественного языка на Scala, Python и Java с открытым исходным кодом; построена на основе Apache Spark и Spark ML,...
window functions
Оконные функции (window functions) в Apache Spark работают на группах строк (это может быть фрейм, партиция, бакет) и возвращает одно значение, полученное в результате вычисления....
YARN
YARN - это фреймворк управления ресурсами в Apache Spark, другими словами, это почти операционная система на кластерном уровне.