Чтобы самостоятельное обучение по Spark стало еще интереснее, сегодня мы предлагаем вам простой тест по основам работы с наборами RDD в распределенном фреймворке Apache Spark,...
Статистка в Spark: корреляция
В рамках анализа данных и отбора признаков нередко вычисляется корреляция между признаками. Сегодня мы разберем, что такое корреляция, какие методы вычисления существуют, как найти коэффициенты...
10 вопросов на знание основ архитектуры Spark SQL: открытый интерактивный тест для начинающих
Чтобы самостоятельное обучение по Spark стало еще интереснее, сегодня мы предлагаем вам простой тест по основам архитектуры компонента Spark SQL, включая элементы, из которых она...
RFormula: Возможности языка R в Spark
Для подготовки датасета и векторизации признаков в Spark пригодиться класс RFormula. Читайте далее, как векторизовать данные, как записывать формулы, какие операторы поддерживаются, а также как...
Как работают пользовательские функции в Apache Spark
В прошлой статье мы говорили про общие переменные в Apache Spark. Сегодня рассмотрим пользовательские функции и их применение в Spark. Читайте далее про особенности создания...
Векторы в PySpark: основы векторных преобразований
Подготовка датасетов в PySpark — одна из задач, которую необходимо выполнить для последующего анализа данных или обучения моделей Machine Learning. Сегодня мы поговорим о работе...
Какие общие переменные поддерживает Apache Spark: 2 основных вида
В прошлой статье мы говорили про логистическую регрессию в Apache Spark. Сегодня поговорим про общие переменные, которые поддерживает этот фреймворк. Читайте далее про виды общих...
Что такое логистическая регрессия и как это работает в Apache Spark
В прошлой статье мы говорили про работу с числовыми данными в наборах RDD. Сегодня поговорим о том, что такое логистическая регрессия и как с...
Как работать с числовыми данными наборов RDD в Apache Spark
В прошлый раз мы говорили про источники структурированных данных в Spark. Сегодня продолжим разговор про наборы RDD и рассмотрим на практических примерах особенности выполнения основных...
Как Spark SQL читает JSON и Hive
В прошлый раз мы говорили про файловые системы, с которыми работает фреймворк Apache Spark. Сегодня рассмотрим, как Spark SQL работает с данными в JSON и...