Сегодня поговорим о том, какие наиболее распространенные форматы файлов способен поддерживать фреймворк Apache Spark. Также рассмотрим, как эффективно сохранять данные в этих форматах. Читайте далее,...
Как настроить Spark-приложение и повысить его производительность
Сегодня поговорим о том, как происходит настройка Spark-приложений. Также рассмотрим ключевые факторы, влияющие на производительность приложений, использующих этот фреймворк. От чего зависит производительность Spark-приложений: 2...
Как развертываются Spark-приложения
В этой статье мы поговорим о том, как можно развернуть приложения, которые используют архитектуру фреймворка Spark. Также рассмотрим сценарий spark-submit и разберем, как с помощью...
Как работают Spark-приложения в кластере
В этой статье мы поговорим о том, как выполняются приложения, которые создавались на базе фреймворка Apache Spark. Читайте далее про архитектуру среды выполнения Spark, а...
Что такое MLlib и для чего он нужен
В этой статье мы поговорим про компонент MLlib, который входит в популярный Big Data фреймворк Apache Spark. Читайте далее про архитектуру и типы данных этого...
Что такое Spark Streaming и для чего он нужен
В этой статье поговорим про модуль Spark Streaming, который входит в популярный Big Data фреймворк Apache Spark. Читайте далее про ключевые характеристики этого компонента, его...
Что такое Spark SQL и для чего он нужен
В этой статье поговорим про модуль Spark SQL, который входит в популярный стек Big Data фреймворка Apache Spark. Также рассмотрим основные особенности этого компонента, его...
Как работать с RDD в Apache Spark: что такое действия и преобразования
В прошлый раз мы рассмотрели, из чего состоит стек фреймворка Spark. В этой статье поговорим про основные операции, на которых основан анализ распределенных данных в...
Из чего состоит Apache Spark: краткий обзор компонентов
В этой статье мы поговорим про компоненты, которые входят в популярный Big Data фреймворк Apache Spark, составляя его унифицированный стек. Благодаря им Spark обладает широкими...
ТОП-7 причин использовать Apache Spark для анализа больших данных и разработки распределенных приложений
В этой статье поговорим про Apache Spark – популярный Big Data фреймворк с открытым исходным кодом для обработки больших массивов данных. Он входит в экосистему...