Первые шаги в Spark NLP: преобразование строковых данных

В прошлой статье мы говорили об установке Spark NLP на различные операционные системы, а теперь приступим уже к программированию. Сегодня затронем преобразование строковых данных в...

Как происходит распределение данных в Spark

В прошлый раз мы говорили про механизм сериализации данных в распределенном фреймворке Apache Spark. Сегодня поговорим про управление распределением данных в Spark. Читайте далее про...

10 вопросов на знание основ работы с логистической регрессией в Spark MLlib: открытый интерактивный тест для начинающих изучать машинное обучение

Чтобы самостоятельное обучение по Spark Mllib стало еще интереснее, сегодня мы предлагаем вам простой тест по основам работы с логистической регрессией в распределенном фреймворке Apache...

Ускоряем Apache Spark: тонкая настройка

В прошлой статье мы говорили о кэшировании данных в Apache Spark для более быстрой обработки больших данных (Big Data). Помимо кэширования, можно также оптимизировать производительность...

Увеличьте скорость обработки с помощью кэширования в Spark

В Apache Spark есть функции для кэширования промежуточных данных с целью получения повышения производительности при выполнении SQL запросов. В этой статье мы сравним различные методы...

Как работает SparkSQL изнутри и причем здесь Catalyst

Spark обрабатывает данные быстро. Это было основным преимуществом фреймворка с момента его первого представления в 2010 году. Обладая широким спектром вариантов возможностей и простотой использования,...

3 метода параллельной обработки данных в Spark

Spark, как инструмент анализа данных, отлично подходит при увеличении масштаба задач и при увеличении размера самих данных Пока вы используете датафреймы и библиотеки Spark вы...

Конвейеры машинного обучения в Spark

Построение моделей машинного обучения в Spark — это последовательный процесс. Сегодня мы расскажем о конвейерах (Pipeline) в Spark. Читайте далее: какие объекты используются в конвейере,...

Поиск по сайту