1. Машинное обучение с Apache Spark

    На текущий момент Apache Spark считается одним из наиболее популярных фреймворков в мире Big Data, благодаря возможности быстро обрабатывать большие объемы данных. Для специалиста по Data Science он предоставляет следующие преимущества: обработка действительно больших объемов данных благодаря распределенной архитектуре и распараллеливанию вычислительных потоков по разделам на разных узлах кластера, который можно масштабировать,...
  2. ML-pipeline в Apache Spark MLLib

    Конвейеры – это простой способ упорядочить код предварительной обработки данных и ML-моделирования. Непрерывная цепочка связанных работ дает следующие преимущества в промышленном Machine Learning: чистый код за счет автоматизации процедур подготовки данных – выборка, очистка, генерация предикторов (фичей, от англ. feature) и пр.; сокращение ошибок благодаря отработанной последовательности шагов, не получится пропустить или...
  3. Как выстраивается работа с данными в компании. Этапы и стратегия

    Первые пилотные проекты На этом этапе происходит построение пилотных моделей машинного обучения, которые могут быть как рекомендательными, так и оценочными. В ходе выполнения пилотов даются рекомендации по целесообразности применения моделей ML для данной задачи и возможные пути повышения качества предложенных моделей. Они оцениваются с точки зрения потенциального экономического эффекта и...
  4. 6 принципов внедрения ИИ в бизнес

    Чтобы эффективно использовать искусственный интеллект и стать в ряду лидеров инноваций, важно придерживаться шести принципов. 1. Структурность Компоненты ИИ в бизнесе должны играть роль многофункциональных и взаимозаменяемых кирпичей, которые обеспечат быструю окупаемость инвестиций. 2. Рабочая сила Сотрудников необходимо обучать работе с ИИ. 3. Изобретение продукта заново Другими словами, применение ИИ...
  5. Машинное обучение на больших данных

    Рассмотрим библиотеку MlLib в Spark и покажем, как решать задачи машинного обучения — классификации, регресии, кластеризации, а также коллаборативной фильтрации. Кроме этого покажем, как можно исследовать признаки с целью отбора и выделения новых (т.н. Feature Engineering). Вектора Для простых «плотных» векторов есть специальный класс Vectors.dense:   Для «разреженных» векторов...
  6. Основы работы в Spark

    Основным понятием в Spark является RDD (Resilient Distributed Dataset), который представляет собой Dataset, над которым можно делать преобразования двух типов (и, соответственно, вся работа с этими структурами заключается в последовательности этих двух действий). Трансформации Результатом применения данной операции к RDD является новый RDD. Как правило, это операции, которые каким-либо образом...
  7. Рекомендательные системы на больших данных

    Одна из основных задач, которые стоят перед рекомендательными системами — это выявление закономерностей в покупках, связей — что с чем обычно люди приобретают. А также выявление групп людей по схожести покупок, поскольку это позволяет делать выводы, что если А и Б в целом схожи по группе покупок, то можно рекламировать...
  8. Большие Данные: с чего начать

    Сегодня компании используют Big Data для углубленного взаимодействия с клиентами, оптимизации операций, предотвращения угроз и мошенничества. За последние два года такие компании, как IBM, Google, Amazon, Uber, создали сотни рабочих мест для программистов и Data science. Область больших данных слишком размылась на просторах интернета, и это может быть очень сложной...
  9. Что такое большие данные?

    Под обобщающим термином «большие данные» принято понимать любые наборы данных, достаточно большие и сложные для того, чтобы их можно было бы обработать традиционными средствами работы с данными (например, РСУБД – реляционными системами управления базами данных). Единого мнения о том, какой объём считать «достаточно большим», нет, но нужно помнить, что сам...
  10. Большие данные в телекоме

    Телеком обладает всеми возможностями для эффективного использования методов обработки и анализа больших данных — от терабайтов разнообразной информации о клиентах до инфраструктуры и квалифицированных кадров. Как эти возможности реализованы сегодня? В области работы с клиентами… 1. Они анализируют наше недовольство Прогнозирование оттока абонентов является классической задачей для телекома, так как...

Data Scientist # 1

Машинное обучение, большие данные, наука о данных, анализ данных, цифровой маркетинг, искусственный интеллект, нейронные сети, глубокое обучение, data science, data scientist, machine learning, artificial intelligence, big data, deep learning

Данные — новый актив!

Эффективно управлять можно только тем, что можно измерить.
Copyright © 2020 Data Scientist. Все права защищены.