Обзор книги Data Science for Business

Data science (наука о данных) имеет привлекательное и эффективное приложение в бизнесе. Данных с каждым годом генерируется всё больше и больше, их нужно анализировать, чтобы получить новые инсайты, используя их для повышения эффективности бизнеса. Хорошим примером базового использования data science в бизнесе является книга Data Science for Business авторов Foster Provost and Tom Fawcett. Посмотрим, что там внутри.

Данная книга ориентирована на:
• Людей из бизнеса, кто будет работать с дата-исследователями, управлять дата-проектами или инвестировать в проекты из области data science;
• Разработчиков, которые собираются создавать data science решения;
• Начинающих исследователей данных (data scientist).

Основа книги – опыт преподавания дисциплины в Stern School в NYU.

Первая глава вводит нас в курс дела и повествует про дата-аналитическое мышление.

Данных в своём распоряжении мы можем иметь много и надо уметь эти данные эффективно использовать. Техники дата майнинга (интеллектуального анализа данных) хорошо работают в маркетинге. А чтобы начать это использовать в нужном русле нужно дата-ориентированное аналитическое мышление. Важно научиться понимать, сможем ли мы извлечь полезные знания и использовать их в рамках рассматриваемой проблемы или нет.

Вообще говоря, в книге не делается существенной разницы между data science и data mining – в определённых контекстах они эквивалентны.

Описывается пример урагана Френсис: если рассмотреть тенденции поведения людей до урагана (например, покупки в магазинах), можно спрогнозировать их поведение при следующем урагане.

Далее описывается важный пример прогноза оттока пользователей (customer churn).

Data science играет важную роль в принятии решений в компании. Дата-ориентированное принятие решений (data-driven decision-making) ориентировано на анализ конкретных данных, а не просто интуицию. Компаний, внедряющих такой подход становится всё больше, а сами они становятся более эффективными.

В этой же главе упоминаются большие данные в контексте data science, переход от Больших данных 1.0 к Большим данным 2.0. Что я могут сейчас сделать из того, что не мог сделать до этого? Что я могут сделать лучше, чего не мог до этого?

Данные и возможности data science для компании являются ценным стратегическим активом. По прогнозам МакКинси к 2018 году только в США будет острая нехватка специалистов в области data science (от 140000 до 190000 специалистов) и около 1,5 миллиона менеджеров-аналитиков, способных использовать современные технологии (в том числе для анализа больших данных) для принятия эффективных управленческих решений. Разница в 10 раз объясняется тем, что результаты работы data science команды могут быть использованы во многих департаментах компании, и нужны специалисты, разбирающиеся в этой области и способные использовать новые инсайты во благо компании. Данная книга как раз сконцентрирована на основах data science и data mining, рассматриваются принципы, концепции, техники, которые помогают структурировать мышление и навыки анализа. В книге алгоритмы и техники data mining не рассматриваются углубленно, но тем не менее, это позволит понять их смысл, принцип работы и область использования.

Для дата майнинга есть стандарт The Cross Industry Standard Process for Data Mining, (CRISP-DM) с конкретными шагами процесса анализа.

Вторая глава посвящена бизнес проблемам и их решению с помощью data science.

От бизнес проблем к задачам анализа данных. Каждое принятие рещения, основанное на анализе данных, по своей сути уникально. Важный навык: разбить задачу/проблему на несколько составляющих, которые затем могут быть решены с помощью доступных методик. Несмотря на большое количество алгоритмов, существует несколько базовых методик, которые могут использоваться для решения задач бизнеса.

1. Классификация и оценка вероятности.
2. Регрессия (оценка значений).
3. Поиск подобий.
4. Кластерный анализ.
5. Поиск ассоциаций.
6. Профилирование (описание поведения).
7. Прогноз связей.
8. Преобразование данных (замена большого набора данных меньшим набором, содержащим большую часть важной информации большого набора).
9. Казуальное моделирование (помогает нам понять, какие события или действия влияют на другие).

Practitioners formulate churn prediction as a problem of finding segments of customers who are more or less likely to leave.

Дополнительно авторы касаются методов с учителем (supervised) и без учителя (unsupervised).

Анализ данных и его результаты. Студенты и менеджеры часто путают 2 аспекта анализа данных: (1) поиск в данных паттернов и построение моделей и (2) использование результатов анализа данных.

Важным подпунктом данной главы является описание процесса интеллектуального анализа данных (data mining). Согласно упомянутому выше стандарту, авторы предлагают нам схему процесса data mining: понимание бизнеса, понимание данных, подготовка данных, моделирование, оценка, развёртывание (применение на практике). Более подробно описываются эти шаги.

Управление командой аналитиков. Data mining процесс похож на цикл разработки софта. Это похоже, но на самом деле не так. Следует вопринимать этот процесс как научно-исследовательский, а не как инженерный.

Другие техники и технологии анализа. Бизнес-анализ включает в себя различные методы анализа и обработки данных. Авторы предлагают шесть групп техник анализа: статистика, запросы к базам данных (data querying), хранение данные (data warehousing), регрессионный анализ, машинное обучение и дата майнинг.

Ответы на бизнес-вопросы с помощью этих техник. Вот список некоторых вопросов, ответы на которые можно найти с помощью упомянутых методов:

1. Какой клиент самый прибыльный? (запросы к базам данных)
2. Есть ли существенная разница между прибыльным клиентом и средним клиентом? (статистический анализ, проверка гипотез)
3. Кто такие эти клиенты? Как я могут охарактеризовать их? (запросы к базам данных, статистика, дата майнинг)
4. Будут ли конкретные новые клиенты для меня прибыльными? Какую прибыль я могу ожидать от них? (дата майнинг)

Глава 3 посвящена введению в предиктивное (предсказательное) моделирование: от корреляции к контролируемой сегментации (supervised segmentation).

Модели, индукция и прогноз. В общем, модель – это упрощённое представление реальности. В data science предиктивная модель – это формула для оценки неизвестной величины. Эта формула может быть представлена в виде математического выражения, либо в виде логического правила (или сразу оба).

В обычной жизни, прогноз – это предсказание какого-то будущего события. В data science прогноз подразумевает оценку неизвестного значения (оно может встречаться как в будущем, так и в настоящем, и прошлом).

Создание модели из данных (на основе имеющихся данных) называют модельной индукцией (model induction). Вообще говоря, индукция – это обобщение неких конкретных случаев по общим правилам. Наша модель – это и есть общее правило со статистической точки зрения. Процедура создания модели на основе данных называется алгоритмом индукции (induction algorithm). Также вводится понятие тренировочных, размеченных данных.

Приводится пример сегментации (та же проблема оттока пользователей). Вводится понятие purity measure, information gain, entropy. Приводятся примеры. На одном их примеров показывается индукция деревьев, деревья классификации, регрессионное дерево. Есть много техник для контролируемой сегментации, одной из популярных является создание модели в виде дерева (индукция деревьев). Популярность связана с тем, что модели деревьев просты для понимания, легко описываются, легко используются, они робастны ко многим дата задачам и относительно эффективны. Приводится пример построения дерева классификации из данных и визуализация сегментаций (decision lines, decision surfaces, decision boundaries, hyperplane).

Здесь же приводится пример рассмотрения проблемы оттока пользователей через индукцию деревьев.

Четвёртая глава посвящена подгонке модели к данным.
Рассматривается классификация через математическую функцию, линейная дискриминантная функция. Приводится пример майнинга линейного дискриминанта из данных. Линейная дискриминантная функция для скоринга и рэнкинга. Здесь же описывается метод опорных векторов.

Далее авторы на примере рассматривают класс вероятностной оценки и логистическую регрессию. На примере сравнивается логистическая регрессия с индукцией деревьев.

В data science часто используются линейные модели, но не всё ими ограничивается. Авторы рассматривают также нелинейные функции, метод опорных векторов и нейронные сети.

Глава 5 данной замечательной книги посвящена переобучению модели и тому, как этого избежать.
Даётся понятие переобученности, рассматривается обобщение (generalization). Далее рассматриваются методы обнаружения переобученности, а также случаи переобученности для различных алгоритмов (индукция деревьев, математические функции/линейные функции). Приводится пример, иллюстрирующий, почему переобученность – это плохо. Вводится понятие кросс-валидации и даётся пример.

Далее авторы рассматривают способы избежания переобученности.

В главе 6 рассказано про подобия, соседей и кластеры.
Подобие и расстояние, ближайшие соседи. Дополнительно рассматриваются некоторые важные технические детали подобий и соседей (гетерогенные (неоднородные) атрибуты, другие функции расстояния, комбинирование функций).
Кластеры: иерархическая кластеризация, кластеризация вокруг центроидов. Приводится пример кластеризации новостей бизнеса. Авторы дополнительно затрагивают вопрос понимания результатов кластеризации. Пример: использование обучения с учителем для генерации описания кластера.

Глава 7 – Аналитические решения 1: Что такое хорошая модель?
Оценка классификаторов, точность и её проблемы, матрица ошибок (confusion matrix), проблемы с небалансированными классами.
Ключевая аналитическая парадигма: математическое ожидание. Дополнительно авторы рассматривают оценку, базовый уровень производительности и расходы, связанные с инвестициями в данные.

Глава 8 посвящена визуализации модели производительности.
Рэнкинг вместо классификации. Кривые дохода. ROC графики. Область под кривой ROC (AUR). Приводится пример: аналитика производительности при моделировании оттока клиентов.

Глава 9 – Очевидность и вероятность.
Начинается глава с примера: таргетирование онлайн клиентов с помощью рекламных объявлений. Рассматриваются вероятности (в том числе совместные) и зависимости, правило/формула Байеса (и её применение в data science), условные зависимости и наивный баейсовский классификатор (+ его преимущества и недостатки).
Отдельно авторы остановились на модели доказательств/фактов (model of evidence) Лифт (Lift) с примера о лайках фейсбука.

Глава 10 про представление и майнинг текста.
Авторы начинают с рассуждения, почему анализировать тексты – это важно, и почему это трудно. Рассматриваются варианты представления текста. N-граммы. Плюс куча примеров.

Глава 11 — Аналитические решения 2: На пути к аналитической инженерии.
Решение бизнес проблем с помощью data science начинается с аналитической инженерной поддержки: сюда входит разработка аналитических решений, основанных на имеющихся данных, инструментах и имеющихся технологий. Даются примеры.

Глава 12 посвящена другим data science задачам и техникам.
Рассматриваются ассоциации, вхождения, поведенческий профайлинг, прогноз связей, сжатие данных, латентный информационный майнинг, рекомендации фильмов, декомпозиция ошибки смещённой дисперсии, причинное следствие на основе данных. Приводятся примеры.

Глава 13 – Data Science и стратегия бизнеса
Авторы подчёркивают важность аналитического мышления, возможность получения преимуществ в бизнесе, используя data science. Очень интересно написано про суперский data science менеджмент (можно почитать на странице 320).
Вкратце:

• They need to truly understand and appreciate the needs of the business.
• They need to be able to communicate well with and be respected by both “techies” and “suits”; often this means translating data science jargon (which we have tried to minimize in this book) into business jargon, and vice versa.
• They need to coordinate technically complex activities, such as the integration of multiple models or procedures with business constraints and costs.
• They need to be able to anticipate outcomes of data science projects.
• They need to do all this within the culture of a particular firm.

Далее даётся несколько примеров.

Глава 14 заключительная (и начинается с цитирования Альберта Эйнштейна: «Если ты не можешь объяснить это просто, то ты не очень хорошо понимаешь это сам»).

В заключении авторы рассматривают фундаментальные концепции data science и группируют их на 3 типа. Плюс рассматривают приложение этих концепций к решению новых задач, в частности, к майнингу данных мобильных устройств. Затрагиваются вопросы этики, приватности, сбора данных о людях.

Книгу, безусловно, стоит прочитать и не раз. Она или уже доступна, или скоро будет доступна на русском.

P.S. Загляните ещё на Обзор книги «Doing Data Science»

Data Scientist # 1

Машинное обучение, большие данные, наука о данных, анализ данных, цифровой маркетинг, искусственный интеллект, нейронные сети, глубокое обучение, data science, data scientist, machine learning, artificial intelligence, big data, deep learning

Данные — новый актив!

Эффективно управлять можно только тем, что можно измерить.
Copyright © 2016-2021 Data Scientist. Все права защищены.