Big Data | Data Science

Два
Раз

Главная / Big Data

Машинное обучение с Apache Spark

31.05.2021

На текущий момент Apache Spark считается одним из наиболее популярных фреймворков в мире Big Data, благодаря возможности быстро обрабатывать большие объемы данных. Для специалиста по Data Science он предоставляет следующие преимущества: обработка действительно больших объемов данных благодаря распределенной архитектуре и распараллеливанию вычислительных потоков по разделам на разных узлах кластера, который можно масштабировать,...
Подробнее...
ML-pipeline в Apache Spark MLLib

02.02.2021

Конвейеры – это простой способ упорядочить код предварительной обработки данных и ML-моделирования. Непрерывная цепочка связанных работ дает следующие преимущества в промышленном Machine Learning: чистый код за счет автоматизации процедур подготовки данных – выборка, очистка, генерация предикторов (фичей, от англ. feature) и пр.; сокращение ошибок благодаря отработанной последовательности шагов, не получится пропустить или...
Подробнее...
Как выстраивается работа с данными в компании. Этапы и стратегия

07.11.2019

Первые пилотные проекты На этом этапе происходит построение пилотных моделей машинного обучения, которые могут быть как рекомендательными, так и оценочными. В ходе выполнения пилотов даются рекомендации по целесообразности применения моделей ML для данной задачи и возможные пути повышения качества предложенных моделей. Они оцениваются с точки зрения потенциального экономического эффекта и...
Подробнее...
6 принципов внедрения ИИ в бизнес

05.11.2019

Чтобы эффективно использовать искусственный интеллект и стать в ряду лидеров инноваций, важно придерживаться шести принципов. 1. Структурность Компоненты ИИ в бизнесе должны играть роль многофункциональных и взаимозаменяемых кирпичей, которые обеспечат быструю окупаемость инвестиций. 2. Рабочая сила Сотрудников необходимо обучать работе с ИИ. 3. Изобретение продукта заново Другими словами, применение ИИ...
Подробнее...
Машинное обучение на больших данных

11.11.2018

Рассмотрим библиотеку MlLib в Spark и покажем, как решать задачи машинного обучения — классификации, регресии, кластеризации, а также коллаборативной фильтрации. Кроме этого покажем, как можно исследовать признаки с целью отбора и выделения новых (т.н. Feature Engineering). Вектора Для простых «плотных» векторов есть специальный класс Vectors.dense: Для «разреженных» векторов...
Подробнее...
Основы работы в Spark

30.10.2018

Основным понятием в Spark является RDD (Resilient Distributed Dataset), который представляет собой Dataset, над которым можно делать преобразования двух типов (и, соответственно, вся работа с этими структурами заключается в последовательности этих двух действий). Трансформации Результатом применения данной операции к RDD является новый RDD. Как правило, это операции, которые каким-либо образом...
Подробнее...
Рекомендательные системы на больших данных

26.07.2018

Одна из основных задач, которые стоят перед рекомендательными системами — это выявление закономерностей в покупках, связей — что с чем обычно люди приобретают. А также выявление групп людей по схожести покупок, поскольку это позволяет делать выводы, что если А и Б в целом схожи по группе покупок, то можно рекламировать...
Подробнее...
Большие Данные: с чего начать

15.05.2018

Сегодня компании используют Big Data для углубленного взаимодействия с клиентами, оптимизации операций, предотвращения угроз и мошенничества. За последние два года такие компании, как IBM, Google, Amazon, Uber, создали сотни рабочих мест для программистов и Data science. Область больших данных слишком размылась на просторах интернета, и это может быть очень сложной...
Подробнее...
Что такое большие данные?

04.04.2018

Под обобщающим термином «большие данные» принято понимать любые наборы данных, достаточно большие и сложные для того, чтобы их можно было бы обработать традиционными средствами работы с данными (например, РСУБД – реляционными системами управления базами данных). Единого мнения о том, какой объём считать «достаточно большим», нет, но нужно помнить, что сам...
Подробнее...
Большие данные в телекоме

10.09.2017

Телеком обладает всеми возможностями для эффективного использования методов обработки и анализа больших данных — от терабайтов разнообразной информации о клиентах до инфраструктуры и квалифицированных кадров. Как эти возможности реализованы сегодня? В области работы с клиентами… 1. Они анализируют наше недовольство Прогнозирование оттока абонентов является классической задачей для телекома, так как...
Подробнее...