Базовая статистика Spark MLlib

Статистика является неотъемлемой частью анализа данных, так как позволяет найти отношения между признаками. Сегодня поговорим о статистических функциях библиотеки Spark MLlib. Читайте в этой статье:...

Локальный вектор и матрица: базовые структуры данных Spark MLlib

В Spark MLlib есть разные типы векторов и матриц. MLlib поддерживает локальные векторы и матрицы, хранящиеся на одной машине, а также распределенные матрицы, поддерживаемые одним...

Первые шаги в Spark NLP: преобразование строковых данных

В прошлой статье мы говорили об установке Spark NLP на различные операционные системы, а теперь приступим уже к программированию. Сегодня затронем преобразование строковых данных в...

Ускоряем Apache Spark: тонкая настройка

В прошлой статье мы говорили о кэшировании данных в Apache Spark для более быстрой обработки больших данных (Big Data). Помимо кэширования, можно также оптимизировать производительность...

Увеличьте скорость обработки с помощью кэширования в Spark

В Apache Spark есть функции для кэширования промежуточных данных с целью получения повышения производительности при выполнении SQL запросов. В этой статье мы сравним различные методы...

Поиск по сайту