Hadoop – это фреймворк (набор библиотек) для распределенной обработки больших данных
HDFS
HDFS - распределенная файловая система для хранения данных больших данных
JOIN
JOIN — это операция по соединению двух таблиц по заданному полю (ключу) в Spark SQL. Является аналогом merge в Python-библиотеки Pandas. Spark поддерживает все виды...
Maven
Maven - фреймворк для автоматизации сборки проектов
Partition
Partition (партиция) — это некая часть исходных данных, полученная в ходе разбиения датасета в Apache Spark или Hive. Процедура разбиения на партиции называется партицированием (partitioning)....
RDD
RDD - разновидность Big Data для работы в распределенной среде
Shuffle
Перетасовка, или Shuffle, — это операция перемещения данных по узлам в результате выполнения операций соединения или агрегации Apache Spark. Её можно наблюдать при использовании преобразований...
Spark MLlib
Spark MLlib - это распределенная библиотека машинного обучения на основе Apache Spark
Spark NLP
Spark NLP - это библиотека обработки естественного языка на Scala, Python и Java с открытым исходным кодом; построена на основе Apache Spark и Spark ML,...
Spark SQL
Spark SQL – расширение Apache Spark для работы со структурированными данными
window functions
Оконные функции (window functions) в Apache Spark работают на группах строк (это может быть фрейм, партиция, бакет) и возвращает одно значение, полученное в результате вычисления....
YARN
YARN - это фреймворк управления ресурсами в Apache Spark, другими словами, это почти операционная система на кластерном уровне.