Центральная предельная теорема

Изучая очередной курс на stepic в рамках творческого задания решил доказать Центральную предельную теорему с помощью языка R. Похожее задание, только на Python есть в первом курсе Coursera на специализацию “Машинное обучение и анализ данных” от МФТИ и Яндекс.

Введение

В данном исследовании я хочу с помощью языка R доказать Центральную предельную теорему (ЦПТ) на примере экспоненциального распределения.

Центральная предельная теорема

Подробно о ЦПТ можно почитать в Википедии.

Здесь я запишу теорему в явном виде. Пусть Х1, Х2…Хn – это случайная выборка распределенная по одному из законов распределения со средним арифметическим μ и дисперсией σ2, тогда для достаточно больших n:

\bar{X} \sim N(\mu, \frac{\sigma^2}{n})

Расшифровка формулы: распределение средних значений X близко к нормальному со средним арифметическим μ и дисперсией σ2.

Экспоненциальное распределение

Экспоненциальное распределение относится к классу абсолютно непрерывных распределений. Подробности в Википедии.

Важно отметить, что эксоненциальное распределение имеет параметр λ

Среднее арифметическое равно: \mu = \frac{1}{\lambda}
Дисперсия равна: D = \frac{1}{\lambda^2}

Доказательство

Для доказательства ЦПТ, я сформирую 1000 случайных выборок экспоненциального распределения с 1000 наблюдений в каждой. После этого соберу средние арифметические по каждой выборке и исследую получившийся массив средних.

Если окажется что:

  1. среднее арифметическое из всех средних равна среднему по исходной выборке
  2. стандартное отклонение выборочных средних будет равно стандартной ошибке (ожидаемому стандартному отклонению) исходной выборки

то ЦПТ будет доказана.

1. Параметры экспоненциального распределения

Сформируем выборку экспоненциального распределения с параметром λ(rate) = 2 и количеством наблюдений n = 1000:

library(ggplot2)
rate <- 2
n <- 1000
distr <- data.frame(value = rexp(1000, rate))

Построим гистограмму получившегося распределения:

ggplot(distr, aes(value))+
  geom_histogram(bins = 30, fill = 'white', colour = 'black')

Гистограмма экспоненциального распределения

Как видно из графика экспоненциальное распределение сильно отличается от нормального.

Найдем необходимые для доказательства параметры:

Среднее арифметическое μ (MU): 0.5

Дисперсия D (VAR): 0.25

Стандартное отклонение σ (SIGMA): 0.5

Стандартная ошибка среднего из 1000 выборок (SE): 0.02

Тестовые выборки

Создадим 1000 выборок экспоненциального распределения и запишем в totalMean все средние значения по каждой выборке:

Mean <- numeric(n)
totalMean <- data.frame(mean = Mean)
for (i in 1:n){
  rasp <- data.frame(value = rexp(1000, rate))
  totalMean$mean[i] <- mean(rasp$value)
}
head(totalMean)
##        mean
## 1 0.5154381
## 2 0.5121069
## 3 0.5045546
## 4 0.5134497
## 5 0.4823437
## 6 0.4830506

Построим гистограмму распределения средних:

ggplot(totalMean, aes(mean))+
  geom_histogram(bins = 30, fill = 'white', colour = 'black')

Гистограмма распределения средних

Распределение средних похоже на нормальное. Посчитаем параметры:

mu <- round(mean(totalMean$mean),2)
sigma <- round(sd(totalMean$mean),2)

Среднее арифметическое μ (mu): 0.5

Стандартное отклонение σ (sigma): 0.02

Проверим нулевую гипотезу о том, что распределение средних не отличается от нормального. Для этого используем тест Шапиро – Уилка:

shapiro.test(totalMean$mean)
## 
##  Shapiro-Wilk normality test
## 
## data:  totalMean$mean
## W = 0.9955, p-value = 0.1595

p-value > 0.05 а это значит, у нас нет оснований отвергать нулевую гипотезу.

Результаты

Сравним среднее арифметическое по исходной выборке со средним арифметическим средних значений:

Среднее арифметическое исходной выборки μ (MU): 0.5

Среднее арифметическое средних значений μ (mu): 0.5

Сревним стандартную ошибку (теортическое стандартное отклонение) исходной выборки с стандартным отклонением средних значений:

Стандартная ошибка среднего (SE): 0.02

Стандартное отклонение σ (sigma): 0.02

Теорема ЦПТ доказана!

Итоги

Благодаря языку R мы доказали Центральную предельную теорему, которая играет большую роль в приложениях теории вероятностей. На практике ЦПТ применяется во многих сферах исследований. Например, в баллистике при изучении рассеивания снарядов при стрельбе по цели. На траекторию полета снаряда одновременно влияют множество независимых факторов (давление, ветер, вес снаряда, ошибка прицеливания…) и удивительно то, что точки попадания от цели точно описываются двумерным нормальным законом распределения

Добавить комментарий

Ваш e-mail не будет опубликован.