Hadoop

Hadoop – это фреймворк (набор библиотек) для распределенной обработки больших данных

HDFS

HDFS - распределенная файловая система для хранения данных больших данных

Maven

Maven - фреймворк для автоматизации сборки проектов

Partition

Partition (партиция) — это некая часть исходных данных, полученная в ходе разбиения датасета в Apache Spark или Hive. Процедура разбиения на партиции называется партицированием (partitioning)....

RDD

RDD - разновидность Big Data для работы в распределенной среде

Shuffle

Перетасовка, или Shuffle, — это операция перемещения данных по узлам в результате выполнения операций соединения или агрегации Apache Spark. Её можно наблюдать при использовании преобразований...

Spark MLlib

Spark MLlib - это распределенная библиотека машинного обучения на основе Apache Spark

Spark NLP

Spark NLP - это библиотека обработки естественного языка на Scala, Python и Java с открытым исходным кодом; построена на основе Apache Spark и Spark ML,...

Spark SQL

Spark SQL – расширение Apache Spark для работы со структурированными данными

window functions

Оконные функции (window functions) в Apache Spark работают на группах строк (это может быть фрейм, партиция, бакет) и возвращает одно значение, полученное в результате вычисления....

YARN

YARN - это фреймворк управления ресурсами в Apache Spark, другими словами, это почти операционная система на кластерном уровне.

Поиск по сайту