Чтобы самостоятельное обучение по Spark стало еще интереснее, сегодня мы предлагаем вам простой тест по основам работы с наборами RDD в распределенном фреймворке Apache Spark,...
Статистка в Spark: корреляция
В рамках анализа данных и отбора признаков нередко вычисляется корреляция между признаками. Сегодня мы разберем, что такое корреляция, какие методы вычисления существуют, как найти коэффициенты...
10 вопросов на знание основ архитектуры Spark SQL: открытый интерактивный тест для начинающих
Чтобы самостоятельное обучение по Spark стало еще интереснее, сегодня мы предлагаем вам простой тест по основам архитектуры компонента Spark SQL, включая элементы, из которых она...
Как происходит сериализация данных в Spark
В прошлый раз мы говорили про популярные инструменты для сборки распределенных Spark-приложений. Сегодня поговорим про сериализацию данных распределенных приложений, созданных на базе Big Data фреймворка...
Уменьшаем размерность с PCA в Spark
Что делать, если признаков в датасете слишком много для обучения модели Machine Learning (в том числе в Spark)? Один из вариантов — уменьшить размерность. Сегодня...
Какие механизмы сборки приложений поддерживает Spark
В прошлый раз мы говорили о том, как работают пользовательские функции в Spark. Сегодня поговорим про сборку Spark-приложений, а также рассмотрим, какие механизмы для сборки...
10 вопросов на знание основ конфигурации Spark-приложений: открытый интерактивный тест для начинающих
Чтобы самостоятельное обучение по Spark стало еще интереснее, сегодня мы предлагаем вам простой тест по основам конфигурации Spark-приложений, включая факторы, влияющие на их производительность. Тест...
10 вопросов на знание основ архитектуры распределенных spark-приложений: открытый интерактивный тест для начинающих
Чтобы самостоятельное обучение по Spark стало еще интереснее, сегодня мы предлагаем вам простой тест по основам архитектуры распределенных Spark-приложений, включая элементы, из которых она состоит...
RFormula: Возможности языка R в Spark
Для подготовки датасета и векторизации признаков в Spark пригодиться класс RFormula. Читайте далее, как векторизовать данные, как записывать формулы, какие операторы поддерживаются, а также как...
Как работают пользовательские функции в Apache Spark
В прошлой статье мы говорили про общие переменные в Apache Spark. Сегодня рассмотрим пользовательские функции и их применение в Spark. Читайте далее про особенности создания...