Алгоритм CART

CART (classification and regression trees) – это аббревиатура, обозначающая методы классификации и регрессии с использованием дерева решений. Это методика обучения, основанная на деревьях решений, которая возвращает классификационные или регрессионные деревья. Как было в случае с C4.5, CART – это классификатор.

Дерево классификации выглядит так же как дерево решений? Дерево классификаций – это подвид дерева решений. Результатом работы дерева классификаций является класс.

Например, снова возьмем набор данных о пациенте. Вы можете попытаться предсказать, будет ли у пациента рак. Здесь возможно использование двух классов: «заболеет раком» и «не заболеет раком».

Что такое дерево регрессий? Дерево классификаций на выходе имеет класс, а дерево регрессий… числовую или непрерывную величину, например, время госпитализации или цену смартфона.

Деревья классификаций выводят классы, деревья регрессий – числа.
Поскольку мы уже разбирали, как деревья решений применяются для классификации данных, давайте сразу перейдем к сути алгоритма:

Как CART соотносится с C4.5?

C4.5:

  • Использует приток информации к сегменту данных в процессе создания дерева решений.
  • Использует однопроходной метод прореживания, чтобы уменьшить переобучение.
  • Узлы дерева решений могут иметь две или более ветвей.
  • На основе вероятностей распределяет отсутствующие значения между «детьми».
  • Cart:

  • Здесь используется неопределенность Джини (не путать с коэффициентом Джини). На Stack Overflow можно почитать о различиях между ними.
  • Использует механизм отсечения дерева при прореживании. Начиная с низа дерева, CART оценивает ошибку классификации в узле и вне узла. Если погрешность превышает граничную, то ветка отбрасывается.
  • Узлы решения имеют две ветки.
  • Использует суррогатные переменные, чтобы передать отсутствующие данные «детям».
  • Требует ли этот метод обучения или он самообучающийся? CART требует обучения, поскольку для построения дерева классификаций и дерева регрессий необходим размеченный набор данных.

    Почему именно CART? Причины, по которым вы бы использовали C4.5, применимы и к CART, поскольку оба метода – это техники обучения на основании дерева решений. Также к достоинствам CART можно отнести легкую интерпретируемость.

    Как и C4.5, CART довольно быстрый, пользуется популярностью и обладает удобно читаемым выводом.

    Где он используется? Реализации CART встречаются в scikit-learn. R использует CART в своем пакете работы с деревьями. CART есть в Weka и MATLAB.

    Источник

    CART (видео)

    Реализация CART в R

    Пример 1 (via rpart)

    Let’s use the data frame kyphosis to predict a type of deformation (kyphosis) after surgery, from age in months (Age), number of vertebrae involved (Number), and the highest vertebrae operated on (Start).

    Пример 2.

    In this example we will predict car mileage from price, country, reliability, and car type. The data frame is cu.summary.

    Источник примеров

    Реализация CART в Python

    В примере используется Bank Note датасет

    Источник примера (тьюториал с пояснениями)

    Data Scientist # 1

    Машинное обучение, большие данные, наука о данных, анализ данных, цифровой маркетинг, искусственный интеллект, нейронные сети, глубокое обучение, data science, data scientist, machine learning, artificial intelligence, big data, deep learning

    Данные — новый актив!

    Эффективно управлять можно только тем, что можно измерить.
    Copyright © 2016-2021 Data Scientist. Все права защищены.