Архив Encyclopedia

Hadoop

Hadoop – это фреймворк (набор библиотек) для распределенной обработки больших данных

HDFS

HDFS - распределенная файловая система для хранения данных больших данных

JOIN

JOIN — это операция по соединению двух таблиц по заданному полю (ключу) в Spark SQL. Является аналогом merge в Python-библиотеки Pandas. Spark поддерживает все виды...

курсы hadoop sql, big data обучение, bigdata курсы, hadoop spark, анализ с использование spark, bigdata курсы,аналитика больших данных курсы, курсы spark, основы spark, основы hadoop, обучение администраторов spark

Maven

Maven - фреймворк для автоматизации сборки проектов

Partition

Partition (партиция) — это некая часть исходных данных, полученная в ходе разбиения датасета в Apache Spark или Hive. Процедура разбиения на партиции называется партицированием (partitioning)....

курсы Spark, обучение Apache Spark, что такое RDD Spark

RDD

RDD - разновидность Big Data для работы в распределенной среде

Shuffle

Перетасовка, или Shuffle, — это операция перемещения данных по узлам в результате выполнения операций соединения или агрегации Apache Spark. Её можно наблюдать при использовании преобразований...

Spark MLlib

Spark MLlib - это распределенная библиотека машинного обучения на основе Apache Spark

Spark NLP

Spark NLP - это библиотека обработки естественного языка на Scala, Python и Java с открытым исходным кодом; построена на основе Apache Spark и Spark ML,...

Spark SQL

Spark SQL – расширение Apache Spark для работы со структурированными данными

window functions

Оконные функции (window functions) в Apache Spark работают на группах строк (это может быть фрейм, партиция, бакет) и возвращает одно значение, полученное в результате вычисления....

YARN

YARN - это фреймворк управления ресурсами в Apache Spark, другими словами, это почти операционная система на кластерном уровне.

Пн	Вт	Ср	Чт	Пт	Сб	Вс
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31