Роман Котюбеев, Автор в Практические курсы по Apache Spark для аналитиков, разработчиков, администраторов Big Data

19Фев

3 совета по ускорению Apache Spark

В прошлой статье мы говорили об устройстве оптимизатора Apache Spark. Теперь мы знаем, как сложный и продуманный механизм оптимизации Spark обеспечивает быстрый и эффективный анализ...

17Фев

Автор Роман Котюбеев

Как работает SparkSQL изнутри и причем здесь Catalyst

Spark обрабатывает данные быстро. Это было основным преимуществом фреймворка с момента его первого представления в 2010 году. Обладая широким спектром вариантов возможностей и простотой использования,...

10Фев

Автор Роман Котюбеев

3 метода параллельной обработки данных в Spark

Spark, как инструмент анализа данных, отлично подходит при увеличении масштаба задач и при увеличении размера самих данных Пока вы используете датафреймы и библиотеки Spark вы...

04Фев

Автор Роман Котюбеев

Выбор наилучшей модели: кросс-валдиация и разбиение на выборки

Тюнинг, или подбор параметров, является незаменимой частью при подборе модели Machine Learning, поскольку с одними параметрами модель может показывать высокие результаты, а с другими —...

29Янв

Автор Роман Котюбеев

Конвейеры машинного обучения в Spark

Построение моделей машинного обучения в Spark — это последовательный процесс. Сегодня мы расскажем о конвейерах (Pipeline) в Spark. Читайте далее: какие объекты используются в конвейере,...

20Янв

Автор Роман Котюбеев

Статистка в Spark: корреляция

В рамках анализа данных и отбора признаков нередко вычисляется корреляция между признаками. Сегодня мы разберем, что такое корреляция, какие методы вычисления существуют, как найти коэффициенты...

11Янв

Автор Роман Котюбеев

Уменьшаем размерность с PCA в Spark

Что делать, если признаков в датасете слишком много для обучения модели Machine Learning (в том числе в Spark)? Один из вариантов — уменьшить размерность. Сегодня...

23Дек

Автор Роман Котюбеев

RFormula: Возможности языка R в Spark

Для подготовки датасета и векторизации признаков в Spark пригодиться класс RFormula. Читайте далее, как векторизовать данные, как записывать формулы, какие операторы поддерживаются, а также как...

11Дек

Автор Роман Котюбеев

Векторы в PySpark: основы векторных преобразований

Подготовка датасетов в PySpark — одна из задач, которую необходимо выполнить для последующего анализа данных или обучения моделей Machine Learning. Сегодня мы поговорим о работе...

Пн	Вт	Ср	Чт	Пт	Сб	Вс
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

3 совета по ускорению Apache Spark

Как работает SparkSQL изнутри и причем здесь Catalyst

3 метода параллельной обработки данных в Spark

Выбор наилучшей модели: кросс-валдиация и разбиение на выборки

Конвейеры машинного обучения в Spark

Статистка в Spark: корреляция

Уменьшаем размерность с PCA в Spark

RFormula: Возможности языка R в Spark

Векторы в PySpark: основы векторных преобразований

ООО “УЦ Коммерсант”

О компании

Документы

Проекты