Spark | Data Science

Машинное обучение с Apache Spark

31.05.2021

На текущий момент Apache Spark считается одним из наиболее популярных фреймворков в мире Big Data, благодаря возможности быстро обрабатывать большие объемы данных. Для специалиста по Data Science он предоставляет следующие преимущества: обработка действительно больших объемов данных благодаря распределенной архитектуре и распараллеливанию вычислительных потоков по разделам на разных узлах кластера, который можно масштабировать,...
Подробнее...
ML-pipeline в Apache Spark MLLib

02.02.2021

Конвейеры – это простой способ упорядочить код предварительной обработки данных и ML-моделирования. Непрерывная цепочка связанных работ дает следующие преимущества в промышленном Machine Learning: чистый код за счет автоматизации процедур подготовки данных – выборка, очистка, генерация предикторов (фичей, от англ. feature) и пр.; сокращение ошибок благодаря отработанной последовательности шагов, не получится пропустить или...
Подробнее...
Машинное обучение на больших данных

11.11.2018

Рассмотрим библиотеку MlLib в Spark и покажем, как решать задачи машинного обучения — классификации, регресии, кластеризации, а также коллаборативной фильтрации. Кроме этого покажем, как можно исследовать признаки с целью отбора и выделения новых (т.н. Feature Engineering). Вектора Для простых «плотных» векторов есть специальный класс Vectors.dense: Для «разреженных» векторов...
Подробнее...
Основы работы в Spark

30.10.2018

Основным понятием в Spark является RDD (Resilient Distributed Dataset), который представляет собой Dataset, над которым можно делать преобразования двух типов (и, соответственно, вся работа с этими структурами заключается в последовательности этих двух действий). Трансформации Результатом применения данной операции к RDD является новый RDD. Как правило, это операции, которые каким-либо образом...
Подробнее...

Машинное обучение с Apache Spark

ML-pipeline в Apache Spark MLLib

Машинное обучение на больших данных

Основы работы в Spark

Искать

Недавнее

Тематика

Data Scientist # 1

Данные — новый актив!

Войдите в свой аккаунт