EM-алгоритм

Переходим к следующему алгоритму в рамках «Топ-10 data mining алгоритмов», а именно к EM-алгоритму.

В data mining алгоритм максимизации ожидания (expectation-maximization (EM) обычно используется как кластерный алгоритм (наподобие алгоритма к-средних) для обнаружения знаний.

В математической статистике EM-алгоритм считается итерационным и используется для оценки максимального правдоподобия при вычислении параметров статистической модели со скрытыми переменными.

Вот несколько концепций, которые сделают все проще.

Что такое статистическая модель? Модель можно представить как что-то, описывающее известные данные. Например, оценки за экзамен могут соответствовать нормальному распределению, поэтому предположение, что оценки генерируются в соответствии с нормальным распределением, является моделью.

А что такое распределение? Распределение представляет вероятности появления всех измеримых результатов. Например, оценки за экзамен могут соответствовать нормальному распределению. Это нормальное распределение представляет все вероятности получения той или иной оценки.

Другими словами, распределение помогает понять, сколько человек, сдающих экзамен, получат ту или иную оценку.

А что такое параметры модели? Параметр описывает распределение, которое является частью модели. Например, нормальное распределение описывается средним арифметическим и дисперсией.

В примере с экзаменом распределение оценок (измеримые исходы) вписывается в нормальное распределение. Среднее арифметическое равняется 85, а дисперсия – 100.

Для того, чтобы описать нормальное распределение, вам нужны всего два параметра:

Среднее арифметическое
Дисперсия

А правдоподобие? Возвращаясь к примеру с нормальным распределением.… Предположим, что у нас есть множество оценок. Однако мы знаем не все, а только часть из них.

Вот в чем суть:

Мы не знаем среднее арифметическое или дисперсию всех оценок, но мы можем оценить их, используя данные из примера. Правдоподобие – это вероятность того, что кривая нормального распределения с оцененными значениями среднего арифметического и дисперсии будет достаточно точно описывать полученные результаты экзаменов.

Другими словами, имея набор исчисляемых исходов, давайте оценим параметры модели. На основании этих оцененных параметров считается гипотетическая вероятность появления того или иного исхода, называемая правдоподобием. Запомните, что это гипотетическая вероятность для существующих оценок, а не вероятность получения оценки в будущем.

Вы вероятно думаете, что же такое вероятность?

Предположим, что мы знаем среднее арифметическое и дисперсию. Вероятность появления той или иной оценки соответствует нормальному распределению. Шанс, что мы пронаблюдаем определенные оценки с определенной частотой, называется вероятностью.

Если сказать простыми словами, то мы оцениваем возможные исходы на основании параметров.

А в чем отличие между данными наблюдений и скрытыми данными? Данные наблюдений – это данные, которые вы пронаблюдали или зафиксировали. Скрытые данные – это отсутствующие данные. Есть множество причин, почему они могут отсутствовать (не зафиксированы, проигнорированы и так далее).

Вот в чем загвоздка:

В ходе дата майнинга и кластеризации важно оценивать класс точки данных как отсутствующие данные. Мы не знаем, что это за класс, поэтому интерпретация недостающих данных очень важна в случае применения EM-алгоритма к задаче кластеризации.

Повторюсь: EM-алгоритм является итерационным и используется для нахождения оценок максимального правдоподобия параметров вероятностных моделей, в случае, когда модель зависит от некоторых скрытых переменных. Надеюсь, что теперь вам стало понятнее.

А теперь хорошие новости:

Оценивая максимальное правдоподобие, EM-алгоритм создает отличную модель, которая назначает метки класса точкам данных – прямо как в кластеризации.

Как EM помогает в кластеризации? EM-алгоритм начинает с того, что пытается сделать вывод на основании параметров модели.

Затем следует итерационный трёхшаговый процесс:

E-шаг: На этом шаге на основании параметров модели вычисляются вероятность принадлежности каждой точки данных к кластеру.
М-шаг: Обновляет параметры модели в соответствии с кластерным распределением, проведенным на шаге E.
Предыдущие два шага повторяются до тех пор, пока параметры модели и кластерное распределение не уравняются.

Требует ли этот метод обучения или он самообучающийся? Поскольку мы не предоставляли алгоритму маркированные данные, то это самообучающийся метод.

Почему именно EM? Главным достоинством EM-алгоритма является простота исполнения. Вдобавок ко всему, он может оптимизировать не только параметры модели, но и делать предположения относительно значений отсутствующих данных.

Это делает EM отличным методом для кластеризации и создания моделей с параметрами. Зная кластеры и параметры модели можно предполагать, что содержит кластер и куда стоит отнести новые данные.

Хотя и у EM-алгоритма есть свои недостатки:

С ростом количества итераций падает производительность алгоритма.
EM не всегда находит оптимальные параметры и может застрять в локальном оптимуме, так и не найдя глобальный.

Где он используется? EM-алгоритм реализован в Weka. R имеет реализацию в пакете mclust. В scikit-learn есть реализация EM в модуле gmm.

Источник

Алгоритм EM (видео)

Реализация EM-алгоритма в R

Как отмечалось выше, для реализации EM-алгоритма в R создана библиотека mclust (ссылка выше). Кроме того, для данной библиотеки могут понадобиться дополнительные библиотеки. В примерах используется набор faithful.

Пример 1

library(mclust)           # load mclust library
x = faithful[,1]          # get the first column of the faithful data set
y = faithful[,2]          # get the second column of the faithful data set
plot(x,y)                 # plot the spread points before the clustering
model <- Mclust(faithful) # estimate the number of cluster (BIC), initialize (HC) and clusterize (EM)
data = faithful           # get the data set 
plot(model, faithful)     # plot the clustering results

library(mclust) # load mclust library

x = faithful[,1] # get the first column of the faithful data set

y = faithful[,2] # get the second column of the faithful data set

plot(x,y) # plot the spread points before the clustering

model <- Mclust(faithful) # estimate the number of cluster (BIC), initialize (HC) and clusterize (EM)

data = faithful # get the data set

plot(model, faithful) # plot the clustering results

Комментарий: This is performed through the technique called Bayesian Information Criterion (BIC) that varies the number of cluster from 1 to 9. The BIC is the value of the maximized loglikelihood measured with a penalty for the number of parameters in the model

Пример 2

library(mclust)
faithfulMclust <- Mclust(faithful)
summary(faithfulMclust)
summary(faithfulMclust, parameters = TRUE)
plot(faithfulMclust)
names(faithfulMclust)

library(mclust)

faithfulMclust <- Mclust(faithful)

summary(faithfulMclust)

summary(faithfulMclust, parameters = TRUE)

plot(faithfulMclust)

names(faithfulMclust)

Дополнение: To do further analysis on the same dataset, for example to see the results for a different set of models and/or different numbers of components, Mclust could be rerun. However this approach could involve unnecessary repetition of computations and could also take considerable time when the dataset is large or the process is to be repeated many times. An alternative approach is to split the analysis into several parts using function mclustBIC.

Пример 3

faithfulBIC <- mclustBIC(faithful)
faithfulSummary <- summary(faithfulBIC, data = faithful)
faithfulSummary
faithfulBIC
plot(faithfulBIC, G = 1:7, ylim = c(-2500,-2300), legendArgs = list(x = "bottomright", ncol = 5))

faithfulBIC <- mclustBIC(faithful)

faithfulSummary <- summary(faithfulBIC, data = faithful)

faithfulSummary

faithfulBIC

plot(faithfulBIC, G = 1:7, ylim = c(-2500,-2300), legendArgs = list(x = "bottomright", ncol = 5))

Дополнительные примеры можно найти здесь.

Реализация EM-алгоритма в Python

В Питоне алгоритм реализован в модуле gmm в рамках scikit-learn (ссылка есть выше). Параметры и описание составных частей можно найти там же. Рассмотрим пример.

>>> import numpy as np
>>> from sklearn import mixture
>>> np.random.seed(1)
>>> g = mixture.GMM(n_components=2)
>>> # Generate random observations with two modes centered on 0
>>> # and 10 to use for training.
>>> obs = np.concatenate((np.random.randn(100, 1),
...                       10 + np.random.randn(300, 1)))
>>> g.fit(obs) 
GMM(covariance_type='diag', init_params='wmc', min_covar=0.001,
        n_components=2, n_init=1, n_iter=100, params='wmc',
        random_state=None, thresh=None, tol=0.001, verbose=0)
>>> np.round(g.weights_, 2)
array([ 0.75,  0.25])
>>> np.round(g.means_, 2)
array([[ 10.05],
       [  0.06]])
>>> np.round(g.covars_, 2) 
array([[[ 1.02]],
       [[ 0.96]]])
>>> g.predict([[0], [2], [9], [10]]) 
array([1, 1, 0, 0]...)
>>> np.round(g.score([[0], [2], [9], [10]]), 2)
array([-2.19, -4.58, -1.75, -1.21])
>>> # Refit the model on new data (initial parameters remain the
>>> # same), this time with an even split between the two modes.
>>> g.fit(20 * [[0]] +  20 * [[10]]) 
GMM(covariance_type='diag', init_params='wmc', min_covar=0.001,
        n_components=2, n_init=1, n_iter=100, params='wmc',
        random_state=None, thresh=None, tol=0.001, verbose=0)
>>> np.round(g.weights_, 2)
array([ 0.5,  0.5])

>>> import numpy as np

>>> from sklearn import mixture

>>> np.random.seed(1)

>>> g = mixture.GMM(n_components=2)

>>> # Generate random observations with two modes centered on 0

>>> # and 10 to use for training.

>>> obs = np.concatenate((np.random.randn(100, 1),

... 10 + np.random.randn(300, 1)))

>>> g.fit(obs)

GMM(covariance_type='diag', init_params='wmc', min_covar=0.001,

n_components=2, n_init=1, n_iter=100, params='wmc',

random_state=None, thresh=None, tol=0.001, verbose=0)

>>> np.round(g.weights_, 2)

array([ 0.75, 0.25])

>>> np.round(g.means_, 2)

array([[ 10.05],

[ 0.06]])

>>> np.round(g.covars_, 2)

array([[[ 1.02]],

[[ 0.96]]])

>>> g.predict([[0], [2], [9], [10]])

array([1, 1, 0, 0]...)

>>> np.round(g.score([[0], [2], [9], [10]]), 2)

array([-2.19, -4.58, -1.75, -1.21])

>>> # Refit the model on new data (initial parameters remain the

>>> # same), this time with an even split between the two modes.

>>> g.fit(20 * [[0]] + 20 * [[10]])

GMM(covariance_type='diag', init_params='wmc', min_covar=0.001,

n_components=2, n_init=1, n_iter=100, params='wmc',

random_state=None, thresh=None, tol=0.001, verbose=0)

>>> np.round(g.weights_, 2)

array([ 0.5, 0.5])

Алгоритм EM (видео)

Реализация EM-алгоритма в R

Пример 1

Пример 2

Пример 3

Реализация EM-алгоритма в Python

Искать

Недавнее

Тематика

Data Scientist # 1

Данные — новый актив!

Войдите в свой аккаунт