Как выстраивается работа с данными в компании. Этапы и стратегия

Первые пилотные проекты

На этом этапе происходит построение пилотных моделей машинного обучения, которые могут быть как рекомендательными, так и оценочными. В ходе выполнения пилотов даются рекомендации по целесообразности применения моделей ML для данной задачи и возможные пути повышения качества предложенных моделей. Они оцениваются с точки зрения потенциального экономического эффекта и сложности реализации. Также определяется порядок приоритетности задач. При разработке пилотов уточняются требования к будущей экосистеме данных и моделей, осуществляется погружение специалистов по данным и ИТ в специфику производства, само производство знакомится с новыми инструментами.

Создание стратегии data science

Важно понимать, как именно управлять жизненным циклом данных, как поддерживать корпоративную модель данных. Надо понимать, какие данные есть в компании, чтобы разработать правильную стратегию работы с ними. Тогда в ней будет ценность для бизнеса. Параллельно с первыми пилотами вырабатывается и уточняется «дорожная карта» по созданию платформы для data science, включающая как развитие платформы хранения, так и подходы к работе с ML-моделями.

Внедрение data lake как один из первых шагов

Более дешевые и функциональные по сравнению с традиционными хранилищами «озера» позволяют быстро обрабатывать данные с помощью аналитики и машинного обучения. Их концепция позволяет начать накапливать данные еще до определения конкретных задач. В свою очередь, это дает возможность использовать исторические данные для ML-моделей. Развертывание слоя хранения данных и загрузка туда доступной истории приводит к повышению скорости апробации и внедрения новых моделей.

Накопление данных

Оно идет в любом случае, даже если данные не используются в существующих моделях. Важно организовывать пространство для хранения и заниматься минимальным структурированием, иначе «озеро» превратится в бесполезное «болото». Кроме того, необходимо связать data lake с аналитической экосистемой компании и обеспечить безопасность информации: она не должна «утекать» или создавать проблемы с регуляторами.

Создание слоя моделей и вывод их в продакшн

Для использования «озера» не нужно ждать долгого накопления и трудоемкой структуризации данных. Использование data lake и современных технологий виртуализации позволяет в кратчайшие сроки перейти к развертыванию слоя для моделей и их созданию в целевой архитектуре. Со временем технологии и состав данных меняются, качество модели может падать, из-за чего нужно ее модифицировать либо создавать новую. Со временем может возникнуть несколько моделей, которые в разных ситуациях могут быть более или менее эффективны. Поэтому одновременно с разработкой моделей-сервисов создаются инструменты, которые позволяют управлять их жизненным циклом.

Комплексная работа с данными, ML-инициативы и цифровизация процессов позволяют любой производственной компании стать эффективнее. Это дает возможность максимизировать прибыль за счет снижения себестоимости продукции, облегчить и ускорить работу специалистов, повысить безопасность производства, улучшить ситуацию с перерасходом сырья, процентом брака и обслуживанием оборудования. А в перспективе — обеспечить переход к полностью автономному производству.

Источник

Data Scientist # 1

Машинное обучение, большие данные, наука о данных, анализ данных, цифровой маркетинг, искусственный интеллект, нейронные сети, глубокое обучение, data science, data scientist, machine learning, artificial intelligence, big data, deep learning

Данные — новый актив!

Эффективно управлять можно только тем, что можно измерить.
Copyright © 2019 Data Scientist. Все права защищены.