Проверка статистической значимости

Профессиональные аналитики уделяют много внимания статистической значимости, и это хорошо. Однако статистическая значимость — лишь один из аспектов хорошего анализа.

Проверка статистической значимости подразумевает выдвижение ряда предположений и определение вероятности того, что полученные результаты имели бы место в случае правильности выдвинутых предположений. Проверка статистической значимости поможет убедиться в том, что данные не вводят вас в заблуждение. Она с математической точки зрения покажет, достаточно ли значимо различие. Бывает, что различия, которые кажутся существенными, не являются таковыми, а бывает и так, что значимыми оказываются небольшие различия. Статистическая проверка позволит убедиться в правильности сделанных выводов.

На основе тестирования создана целая дисциплина. В деловом мире она известна как подход «тестируй и изучай» (test and learn), включающий основные экспериментальные концепции, которые преподаются на курсах статистики. В среде «тестируй и изучай» эксперимент устроен так, что можно измерить эффекты использования одного или нескольких вариантов и определить, какой из них будет работать лучше всего.

Итак, весь смысл статистической значимости заключается в том, чтобы определить, имеет ли под собой какое-то основание разница между двумя показателями, или же она случайна. «Изменение позволило достичь повышения конверсии на 20% с доверительной вероятностью 90%». К сожалению, это утверждение вовсе не равнозначно другому, очень похожему: «Шансы повысить конверсию на 20% составляют 90%». Так о чем же речь на самом деле?

20% — это рост, который мы зафиксировали по результатам тестов на одном из образцов. Если бы мы начали фантазировать и строить догадки, мы бы могли предположить, что этот рост может сохраняться постоянно – если мы будем продолжать тестирование до бесконечности. Но это никак не означает, что с вероятностью 90% мы получим двадцатипроцентный рост конверсии или рост «как минимум» в 20%, или «приблизительно» в 20%.

90% — это вероятность проявления каких бы то ни было изменений в конверсии. Другими словами, если бы мы проводили десять А/B-тестов, чтобы получить этот результат, и решили бы проводить все десять до бесконечности, то один из них (так как вероятность изменений 90%, то 10% остаётся на неизменный исход), вероятно, закончился бы приближением результата «после теста» к первоначальной конверсии – то есть, без изменений. Из остающихся девяти тестов некоторые могли бы показать рост, составляющий куда меньше 20%. В других результат мог бы превысить эту планку.

Если неверно интерпретировать эти данные, мы сильно рискуем, «выкатывая» тест. Легко обрадоваться, когда тест показывает высокие показатели роста конверсии с доверительной вероятностью в 95%, но мудрее было бы не ожидать слишком многого, пока тест не доведен до логического завершения.

Уровни статистической значимости и проверка гипотез

Уровень значимости — это вероятность того, что мы сочли различия существенными, в то время как они на самом деле случайны.

Итак, уровень значимости имеет дело с вероятностью.

Уровень значимости показывает степень достоверности выявленных различий между выборками, т.е. показывает, насколько мы можем доверять тому, что различия действительно есть.

Современные научные исследования требуют обязательных расчётов уровня статистической значимости результатов.

Обычно в прикладной статистике используют 3 уровня значимости.

Уровни значимости

1-й уровень значимости: р ≤ 0,05.

Это 5%-ный уровень значимости. До 5% составляет вероятность того, что мы ошибочно сделали вывод о том, что различия достоверны, в то время как они недостоверны на самом деле. Можно сказать и по-другому: мы лишь на 95% уверены в том, что различия действительно достоверны. В данном случае можно написать и так: P>0,95. Общий смысл критерия останется тем же.

2. 2-й уровень значимости: р ≤ 0,01.

Это 1%-ный уровень значимости. Вероятность ошибочного вывода о том, что различия достоверны, составляет не более 1%. Можно сказать и по-другому: мы на 99% уверены в том, что различия действительно достоверны. В данном случае можно написать и так: P>0,99. Смысл останется тем же.

3. 3-й уровень значимости: р ≤ 0,001.

Это 0,1%-ный уровень значимости. Всего 0,1% составляет вероятность того, что мы сделали ошибочный вывод о том, что различия достоверны. Это — самый надёжный вариант вывода о достоверности различий. Можно сказать и по-другому: мы на 99,9% уверены в том, что различия действительно достоверны. В данном случае можно написать и так: P>0,999. Смысл опять-таки останется тем же.

Уровень значимости – это вероятность ошибочного отклонения (отвержения) гипотезы, в то время как она на самом деле верна. Речь идёт об отклонении нулевой гипотезы Но.

Уровень значимости – это допустимая ошибка в нашем утверждении, в нашем выводе.

Ошибки

Возможны ошибки двух родов: первого рода (α ) и второго рода (β).

Ошибка I рода – мы отклонили нулевую гипотезу, в то время как она верна.

α – ошибка I рода.

р ≤ 0,05, уровень ошибки α ≤ 0,05

Вероятность того, что принято правильное решение: 1 – α = 0,95, или 95%.

Уровни значимости для ошибок I рода

1. α ≤ 0,05 – низший уровень

Низший уровень значимости – позволяет отклонять нулевую гипотезу, но еще не разрешает принять альтернативную.

2. α ≤ 0,01 – достаточный уровень

Достаточный уровень – позволяет отклонять нулевую гипотезу и принимать альтернативную.

Исключение:

G – критерий знаков

T – критерий Вилкоксона

U – критерий Манна – Уитни.

Для них обратное соотношение.

3. α ≤ 0,001 – высший уровень значимости.

На практике различия считают достоверными при р ≤ 0,05.

Для ненаправленной статистической гипотезы используется двусторонний критерий значимости. Он более строгий, так как проверяет различия в обе стороны: в сторону нулевой гипотезы и в сторону альтернативной. Поэтому для него используется критерий значимости 0,01.

Мощность критерия – его способность выявлять даже мелкие различия если они есть. Чем мощнее критерий, тем лучше он отвергает нулевую гипотезу и подтверждает альтернативную.

Здесь появляется понятие: ошибка II рода.

Ошибка II рода – это принятие нулевой гипотезы, хотя она не верна.

Мощность критерия: 1 – β

Чем мощнее критерий, тем он привлекательнее для исследователя. Он лучше отвергает нулевую гипотезу.

Чем привлекательны маломощные критерии?

Достоинства маломощных критериев:

  • Простота
  • Широкий диапазон, по отношению к самым разным данным
  • Применимость к неравным по объему выборкам.
  • Большая информативность результатов.

Самый популярный статистический критерий — Т-критерий Стьюдента. Но всего в 30% статей его используют правильно, а в 70% — неправильно, т.к. не проверяют предварительно выборку на нормальность распределения.

Второй по популярности — критерий хи-квадрат, χ2

А еще:

Т-критерий Вилкоксона

U-критерий Манна – Уитни

χ2 — хи-квадрат.

Источник

Дополнение: Статистическая проверка значимости результатов маркетинговых исследований

Подробнее про p-value

Data Scientist # 1

Машинное обучение, большие данные, наука о данных, анализ данных, цифровой маркетинг, искусственный интеллект, нейронные сети, глубокое обучение, data science, data scientist, machine learning, artificial intelligence, big data, deep learning

Данные — новый актив!

Эффективно управлять можно только тем, что можно измерить.
Copyright © 2016-2021 Data Scientist. Все права защищены.