Доверительные интервалы и их применение

Взяв выборку из популяции, мы получим точечную оценку интересующего нас параметра и вычислим стандартную ошибку для того, чтобы указать точность оценки.

Однако, для большинства случаев стандартная ошибка как такова не приемлема. Гораздо полезнее объединить эту меру точности с интервальной оценкой для параметра популяции.

Это можно сделать, используя знания о теоретическом распределении вероятности выборочной статистики (параметра) для того, чтобы вычислить доверительный интервал (CI – Confidence Interval, ДИ – Доверительный интервал) для параметра.

Вообще, доверительный интервал расширяет оценки в обе стороны некоторой величиной, кратной стандартной ошибке (данного параметра); два значения (доверительные границы), определяющие интервал, обычно отделяют запятой и заключают в скобки.

In statistics, a confidence interval (CI) is a type of interval estimate of a population parameter. It is an observed interval (i.e., it is calculated from the observations), in principle different from sample to sample, that frequently includes the value of an unobservable parameter of interest if the experiment is repeated. How frequently the observed interval contains the parameter is determined by the confidence level or confidence coefficient. More specifically, the meaning of the term «confidence level» is that, if CI are constructed across many separate data analyses of replicated (and possibly different) experiments, the proportion of such intervals that contain the true value of the parameter will match the given confidence level. Whereas two-sided confidence limits form a confidence interval, their one-sided counterparts are referred to as lower/upper confidence bounds (or limits).
Источник

Доверительный интервал показывает, в каком диапазоне расположатся результаты выборочных наблюдений (опросов). Если мы проведем 100 одинаковых опросов в одинаковых выборках из единой генеральной совокупности (например, 100 выборок по 1000 человек в каждой в городе с населением 5 миллионов человек), то при 95%-й доверительной вероятности, 95 из 100 результатов попадут в пределы доверительного интервала (например, от 28% до 32% при истинном значении 30%). Например, истинное количество курящих жителей города составляет 30%. Если мы 100 раз подряд выберем по 1000 человек и в этих выборках зададим вопрос «курите ли Вы?», в 95 из этих 100 выборок при 2%-м доверительном интервале значение составит от 28% до 32%.

Доверительный вариант в маркетинге

Формулы для построения доверительных интервалов с практическими примерами можно найти, например, здесь.

Интерпретация доверительных интервалов

При интерпретации доверительного интервала нас интересуют следующие вопросы:

Насколько широк доверительный интервал?

Широкий доверительный интервал указывает на то, что оценка неточна; узкий указывает на точную оценку.
Ширина доверительного интервала зависит от размера стандартной ошибки, которая, в свою очередь, зависит от объёма выборки и при рассмотрении числовой переменной от изменчивости данных дают более широкие доверительные интервалы, чем исследования многочисленного набора данных немногих переменных.

Включает ли ДИ какие-либо значения, представляющие особенный интерес?

Можно проверить, ложится ли вероятное значение для параметра популяции в пределы доверительного интервала. Если да, то результаты согласуются с этим вероятным значением. Если нет, тогда маловероятно (для 95% доверительного интервала шанс почти 5%), что параметр имеет это значение. (Источник)

Data Scientist # 1

Машинное обучение, большие данные, наука о данных, анализ данных, цифровой маркетинг, искусственный интеллект, нейронные сети, глубокое обучение, data science, data scientist, machine learning, artificial intelligence, big data, deep learning

Данные — новый актив!

Эффективно управлять можно только тем, что можно измерить.
Copyright © 2016-2021 Data Scientist. Все права защищены.