Перетасовка, или Shuffle, — это операция перемещения данных по узлам в результате выполнения операций соединения или агрегации Apache Spark. Её можно наблюдать при использовании преобразований...
Spark MLlib
Spark MLlib - это распределенная библиотека машинного обучения на основе Apache Spark
Spark NLP
Spark NLP - это библиотека обработки естественного языка на Scala, Python и Java с открытым исходным кодом; построена на основе Apache Spark и Spark ML,...
Spark SQL
Spark SQL – расширение Apache Spark для работы со структурированными данными