7 ключевых преимуществ Apache Spark
Скорость - в отличие от классического Hadoop MapReduce, обработка данных выполняется непосредственно в оперативной памяти, что существенно быстрее и важно в машинном обучении
Богатый API предоставит разработчику всю мощь языков Python, R, Scala и Java
Широкие функциональные возможности за счет многокомпонентного состава в виде модулей Spark SQL, Spark Streaming, MLLib и GraphX
Распределенная обработка данных - Spark автоматически направит код на разные узлы кластера, максимально задействуя его ресурсы, и перезапустит задачу в случае сбоя
Отложенные/ленивые вычисления (lazy evaluation) сэкономят вычислительные ресурсы, а мощный оптимизатор (Catalyst) сделает вычисления lightning fast
Богатый набор преобразований, эффективные операции с матрицами и векторами и SQL позволят разработчику сосредоточиться на логике выполнения программы
Динамично развивающийся open-source проект с активным профессиональным сообществом убережет от vendor-lock, повышая надежность и функциональность с каждым новым релизом