В прошлый раз мы говорили про механизм распределения данных в Apache Spark. Сегодня рассмотрим механизм взаимодействия Spark с реляционными системами управления базами данных (СУБД). Читайте...
Базовая статистика Spark MLlib
Статистика является неотъемлемой частью анализа данных, так как позволяет найти отношения между признаками. Сегодня поговорим о статистических функциях библиотеки Spark MLlib. Читайте в этой статье:...
10 вопросов на знание основ cборки распределенных приложений на базе фреймворка Spark: открытый интерактивный тест для начинающих
Чтобы самостоятельное обучение по Spark стало еще интереснее, сегодня мы предлагаем вам простой тест по основам сборки распределенных Spark-приложений, включая самые известные сборщики приложений для...
Распределенные матрицы в Spark MLlib
В прошлой статье мы говорили о локальных векторах и матрицах. Сегодня рассмотрим распределенные матрицы Spark MLlib. В этой статье вы узнаете, как создаются строковая матрица...
Локальный вектор и матрица: базовые структуры данных Spark MLlib
В Spark MLlib есть разные типы векторов и матриц. MLlib поддерживает локальные векторы и матрицы, хранящиеся на одной машине, а также распределенные матрицы, поддерживаемые одним...
Первые шаги в Spark NLP: преобразование строковых данных
В прошлой статье мы говорили об установке Spark NLP на различные операционные системы, а теперь приступим уже к программированию. Сегодня затронем преобразование строковых данных в...
Как происходит распределение данных в Spark
В прошлый раз мы говорили про механизм сериализации данных в распределенном фреймворке Apache Spark. Сегодня поговорим про управление распределением данных в Spark. Читайте далее про...
Компоненты Spark NLP
В предыдущей статье мы обсудили преимущества использования Spark NLP. Сегодня рассмотрим основные компоненты Spark NLP - аннотаторы (annotators), и как они связаны с Spark ML....
Зачем Data Scientist’у понадобится библиотека Spark NLP
В предыдущей статье мы немного рассказали о Spark NLP. В этой статье дадим обоснование использования данной библиотеки для решения любых задач NLP. Читайте далее, почему...
3 причины использовать библиотеку Spark NLP
Область NLP (Natural language processing) обладает широким спектром инструментов обработки текстовых данных. Одним из таких инструментов является Spark NLP. В этой статье мы расскажем вам...