Hadoop

Hadoop – это фреймворк (набор библиотек) для распределенной обработки больших данных

HDFS

HDFS - распределенная файловая система для хранения данных больших данных

Maven

Maven - фреймворк для автоматизации сборки проектов

RDD

RDD - разновидность Big Data для работы в распределенной среде

Spark MLlib

Spark MLlib - это распределенная библиотека машинного обучения на основе Apache Spark

Spark NLP

Spark NLP - это библиотека обработки естественного языка на Scala, Python и Java с открытым исходным кодом; построена на основе Apache Spark и Spark ML,...

Spark SQL

Spark SQL – расширение Apache Spark для работы со структурированными данными

YARN

YARN - это фреймворк управления ресурсами в Apache Spark, другими словами, это почти операционная система на кластерном уровне.

Поиск по сайту