Что делать, если признаков в датасете слишком много для обучения модели Machine Learning (в том числе в Spark)? Один из вариантов — уменьшить размерность. Сегодня...
Какие механизмы сборки приложений поддерживает Spark
В прошлый раз мы говорили о том, как работают пользовательские функции в Spark. Сегодня поговорим про сборку Spark-приложений, а также рассмотрим, какие механизмы для сборки...
10 вопросов на знание основ конфигурации Spark-приложений: открытый интерактивный тест для начинающих
Чтобы самостоятельное обучение по Spark стало еще интереснее, сегодня мы предлагаем вам простой тест по основам конфигурации Spark-приложений, включая факторы, влияющие на их производительность. Тест...
10 вопросов на знание основ архитектуры распределенных spark-приложений: открытый интерактивный тест для начинающих
Чтобы самостоятельное обучение по Spark стало еще интереснее, сегодня мы предлагаем вам простой тест по основам архитектуры распределенных Spark-приложений, включая элементы, из которых она состоит...
RFormula: Возможности языка R в Spark
Для подготовки датасета и векторизации признаков в Spark пригодиться класс RFormula. Читайте далее, как векторизовать данные, как записывать формулы, какие операторы поддерживаются, а также как...
Как работают пользовательские функции в Apache Spark
В прошлой статье мы говорили про общие переменные в Apache Spark. Сегодня рассмотрим пользовательские функции и их применение в Spark. Читайте далее про особенности создания...
Векторы в PySpark: основы векторных преобразований
Подготовка датасетов в PySpark — одна из задач, которую необходимо выполнить для последующего анализа данных или обучения моделей Machine Learning. Сегодня мы поговорим о работе...
Какие общие переменные поддерживает Apache Spark: 2 основных вида
В прошлой статье мы говорили про логистическую регрессию в Apache Spark. Сегодня поговорим про общие переменные, которые поддерживает этот фреймворк. Читайте далее про виды общих...
Что такое логистическая регрессия и как это работает в Apache Spark
В прошлой статье мы говорили про работу с числовыми данными в наборах RDD. Сегодня поговорим о том, что такое логистическая регрессия и как с...
Как работать с числовыми данными наборов RDD в Apache Spark
В прошлый раз мы говорили про источники структурированных данных в Spark. Сегодня продолжим разговор про наборы RDD и рассмотрим на практических примерах особенности выполнения основных...