Чему равна дисперсия неслучайной величины а. Пример нахождения дисперсии

Дисперсия — это мера рассеяния, описывающая сравнительное отклонение между значениями данных и средней величиной. Является наиболее используемой мерой рассеяния в статистике, вычисляемая путем суммирования, возведенного в квадрат, отклонения каждого значения данных от средней величины. Формула для вычисления дисперсии представлена ниже:

s 2 – дисперсия выборки;

x ср — среднее значение выборки;

n размер выборки (количество значений данных),

(x i – x ср) — отклонение от средней величины для каждого значения набора данных.

Для лучшего понимания формулы, разберем пример. Я не очень люблю готовку, поэтому занятием этим занимаюсь крайне редко. Тем не менее, чтобы не умереть с голоду, время от времени мне приходится подходить к плите для реализации замысла по насыщению моего организма белками, жирами и углеводами. Набор данных, редставленный ниже, показывает, сколько раз Ренат готовит пищу каждый месяц:

Первым шагом при вычислении дисперсии является определение среднего значения выборки, которое в нашем примере равняется 7,8 раза в месяц. Остальные вычисления можно облегчить с помощью следующей таблицы.

Финальная фаза вычисления дисперсии выглядит так:

Для тех, кто любит производить все вычисления за один раз, уравнение будет выглядеть следующим образом:

Использование метода «сырого счета» (пример с готовкой)

Существует более эффективный способ вычисления дисперсии, известный как метод «сырого счета». Хотя с первого взгляда уравнение может показаться весьма громоздким, на самом деле оно не такое уж страшное. Можете в этом удостовериться, а потом и решите, какой метод вам больше нравится.

— сумма каждого значения данных после возведения в квадрат,

— квадрат суммы всех значений данных.

Не теряйте рассудок прямо сейчас. Позвольте представить все это в виде таблицы, и тогда вы увидите, что вычислений здесь меньше, чем в предыдущем примере.

Как видите, результат получился тот же, что и при использовании предыдущего метода. Достоинства данного метода становятся очевидными по мере роста размера выборки (n).

Расчет дисперсии в Excel

Как вы уже, наверное, догадались, в Excel присутствует формула, позволяющая рассчитать дисперсию. Причем, начиная с Excel 2010 можно найти 4 разновидности формулы дисперсии:

1) ДИСП.В – Возвращает дисперсию по выборке. Логические значения и текст игнорируются.

2) ДИСП.Г — Возвращает дисперсию по генеральной совокупности. Логические значения и текст игнорируются.

3) ДИСПА — Возвращает дисперсию по выборке с учетом логических и текстовых значений.

4) ДИСПРА — Возвращает дисперсию по генеральной совокупности с учетом логических и текстовых значений.

Для начала разберемся в разнице между выборкой и генеральной совокупностью. Назначение описательной статистики состоит в том, чтобы суммировать или отображать данные так, чтобы оперативно получать общую картину, так сказать, обзор. Статистический вывод позволяет делать умозаключения о какой-либо совокупности на основе выборки данных из этой совокупности. Совокупность представляет собой все возможные исходы или измерения, представляющие для нас интерес. Выборка — это подмножество совокупности.

Например, нас интересует совокупность группы студентов одного из Российских ВУЗов и нам необходимо определить средний бал группы. Мы можем посчитать среднюю успеваемость студентов, и тогда полученная цифра будет параметром, поскольку в наших расчетах будет задействована целая совокупность. Однако, если мы хотим рассчитать средний бал всех студентов нашей страны, тогда эта группа будет нашей выборкой.

Разница в формуле расчета дисперсии между выборкой и совокупностью заключается в знаменателе. Где для выборки он будет равняться (n-1), а для генеральной совокупности только n.

Теперь разберемся с функциями расчета дисперсии с окончаниями А, в описании которых сказано, что при расчете учитываются текстовые и логические значения. В данном случае при расчете дисперсии определенного массива данных, где встречаются не числовые значения, Excel будет интерпретировать текстовые и ложные логические значения как равными 0, а истинные логические значения как равными 1.

Итак, если у вас есть массив данных, рассчитать его дисперсию ни составит никакого труда, воспользовавшись одной из перечисленных выше функций Excel.

Часто в статистике при анализе какого-либо явления или процесса необходимо учитывать не только информацию о средних уровнях исследуемых показателей, но и разброс или вариацию значений отдельных единиц , которая является важной характеристикой изучаемой совокупности.

В наибольшей степени вариации подвержены курсы акций, объемы спроса и предложения, процентные ставки в разные периоды времени и в разных местах.

Основными показателями, характеризующими вариацию , являются размах, дисперсия, среднее квадратическое отклонение и коэффициент вариации.

Размах вариации представляет собой разность максимального и минимального значений признака: R = Xmax – Xmin . Недостатком данного показателя является то, что он оценивает только границы варьирования признака и не отражает его колеблемость внутри этих границ.

Дисперсия лишена этого недостатка. Она рассчитывается как средний квадрат отклонений значений признака от их средней величины:

Упрощенный способ расчета дисперсии осуществляется с помощью следующих формул (простой и взвешенной):

Примеры применения данных формул представлены в задачах 1 и 2.

Широко распространенным на практике показателем является среднее квадратическое отклонение :

Среднее квадратическое отклонение определяется как квадратный корень из дисперсии и имеет ту же размеренность, что и изучаемый признак.

Рассмотренные показатели позволяют получить абсолютное значение вариации, т.е. оценивают ее в единицах измерения исследуемого признака. В отличие от них, коэффициент вариации измеряет колеблемость в относительном выражении - относительно среднего уровня, что во многих случаях является предпочтительнее.

Формула для расчета коэффициента вариации.

Примеры решения задач по теме «Показатели вариации в статистике»

Задача 1 . При изучении влияния рекламы на размер среднемесячного вклада в банках района обследовано 2 банка. Получены следующие результаты:

Определить:
1) для каждого банка: а) средний размер вклада за месяц; б) дисперсию вклада;
2) средний размер вклада за месяц для двух банков вместе;
3) Дисперсию вклада для 2-х банков, зависящую от рекламы;
4) Дисперсию вклада для 2-х банков, зависящую от всех факторов, кроме рекламы;
5) Общую дисперсию используя правило сложения;
6) Коэффициент детерминации;
7) Корреляционное отношение.

Решение

1) Составим расчетную таблицу для банка с рекламой . Для определения среднего размера вклада за месяц найдем середины интервалов. При этом величина открытого интервала (первого) условно приравнивается к величине интервала, примыкающего к нему (второго).

Средний размер вклада найдем по формуле средней арифметической взвешенной:

29 000/50 = 580 руб.

Дисперсию вклада найдем по формуле:

23 400/50 = 468

Аналогичные действия произведем для банка без рекламы :

2) Найдем средний размер вклада для двух банков вместе. Хср =(580×50+542,8×50)/100 = 561,4 руб.

3) Дисперсию вклада, для двух банков, зависящую от рекламы найдем по формуле: σ 2 =pq (формула дисперсии альтернативного признака). Здесь р=0,5 – доля факторов, зависящих от рекламы; q=1-0,5, тогда σ 2 =0,5*0,5=0,25.

4) Поскольку доля остальных факторов равна 0,5, то дисперсия вклада для двух банков, зависящая от всех факторов кроме рекламы тоже 0,25.

5) Определим общую дисперсию, используя правило сложения.

= (468*50+636,16*50)/100=552,08

= [(580-561,4)250+(542,8-561,4)250] / 100= 34 596/ 100=345,96

σ 2 = σ 2 факт + σ 2 ост = 552,08+345,96 = 898,04

6) Коэффициент детерминации η 2 = σ 2 факт / σ 2 = 345,96/898,04 = 0,39 = 39% - размер вклада на 39% зависит от рекламы.

7) Эмпирическое корреляционное отношение η = √η 2 = √0,39 = 0,62 – связь достаточно тесная.

Задача 2 . Имеется группировка предприятий по величине товарной продукции:

Определить: 1) дисперсию величины товарной продукции; 2) среднее квадратическое отклонение; 3) коэффициент вариации.

Решение

1) По условию представлен интервальный ряд распределения. Его необходимо выразить дискретно, то есть найти середину интервала (х"). В группах закрытых интервалов середину найдем по простой средней арифметической. В группах с верхней границей - как разность между этой верхней границей и половиной размера следующего за ним интервала (200-(400-200):2=100).

В группах с нижней границей – суммой этой нижней границы и половины размера предыдущего интервала (800+(800-600):2=900).

Расчет средней величины товарной продукции делаем по формуле:

Хср = k×((Σ((х"-a):k)×f):Σf)+a. Здесь а=500 - размер варианта при наибольшей частоте, k=600-400=200 - размер интервала при наибольшей частоте. Результат поместим в таблицу:

Итак, средняя величина товарной продукции за изучаемый период в целом равна Хср = (-5:37)×200+500=472,97 тыс. руб.

2) Дисперсию найдем по следующей формуле:

σ 2 = (33/37)*2002-(472,97-500)2 = 35 675,67-730,62 = 34 945,05

3) среднее квадратическое отклонение: σ = ±√σ 2 = ±√34 945,05 ≈ ±186,94 тыс. руб.

4) коэффициент вариации: V = (σ /Хср)*100 = (186,94 / 472,97)*100 = 39,52%

В предыдущем мы привели ряд формул, позволяющих находить числовые характеристики функций, когда известны законы распределения аргументов. Однако во многих случаях для нахождения числовых характеристик функций не требуется знать даже законов распределения аргументов, а достаточно знать только некоторые их числовые характеристики; при этом мы вообще обходимся без каких бы то ни было законов распределения. Определение числовых характеристик функций по заданным числовым характеристикам аргументов широко применяется в теории вероятностей и позволяет значительно упрощать решение ряда задач. По преимуществу такие упрощенные методы относятся к линейным функциям; однако некоторые элементарные нелинейные функции также допускают подобный подход.

В настоящем мы изложим ряд теорем о числовых характеристиках функций, представляющих в своей совокупности весьма простой аппарат вычисления этих характеристик, применимый в широком круге условий.

1. Математическое ожидание неслучайной величины

Сформулированное свойство является достаточно очевидным; доказать его можно, рассматривая неслучайную величину как частный вид случайной, при одном возможном значении с вероятностью единица; тогда по общей формуле для математического ожидания:

.

2. Дисперсия неслучайной величины

Если - неслучайная величина, то

3. Вынесение неслучайной величины за знак математического ожидания

, (10.2.1)

т. е. неслучайную величину можно выносить за знак математического ожидания.

Доказательство.

а) Для прерывных величин

б) Для непрерывных величин

.

4. Вынесение неслучайной величины за знак дисперсии и среднего квадратического отклонения

Если - неслучайная величина, а - случайная, то

, (10.2.2)

т. е. неслучайную величину можно выносить за знак дисперсии, возводя ее в квадрат.

Доказательство. По определению дисперсии

Следствие

,

т. е. неслучайную величину можно выносить за знак среднего квадратического отклонения ее абсолютным значением. Доказательство получим, извлекая корень квадратный из формулы (10.2.2) и учитывая, что с.к.о. - существенно положительная величина.

5. Математическое ожидание суммы случайных величин

Докажем, что для любых двух случайных величин и

т. е. математическое ожидание суммы двух случайных величин равно сумме их математических ожиданий.

Это свойство известно под названием теоремы сложения математических ожиданий.

Доказательство.

а) Пусть - система прерывных случайных величин. Применим к сумме случайных величин общую формулу (10.1.6) для математического ожидания функции двух аргументов:

.

Ho представляет собой не что иное, как полную вероятность того, что величина примет значение :

;

следовательно,

.

Аналогично докажем, что

,

и теорема доказана.

б) Пусть - система непрерывных случайных величин. По формуле (10.1.7)

. (10.2.4)

Преобразуем первый из интегралов (10.2.4):

;

аналогично

,

и теорема доказана.

Следует специально отметить, что теорема сложения математических ожиданий справедлива для любых случайных величин - как зависимых, так и независимых.

Теорема сложения математических ожиданий обобщается на произвольное число слагаемых:

, (10.2.5)

т. е. математическое ожидание суммы нескольких случайных величин равно сумме их математических ожиданий.

Для доказательства достаточно применить метод полной индукции.

6. Математическое ожидание линейной функции

Рассмотрим линейную функцию нескольких случайных аргументов :

где - неслучайные коэффициенты. Докажем, что

, (10.2.6)

т. е. математическое ожидание линейной функции равно той же линейной функции от математических ожиданий аргументов.

Доказательство. Пользуясь теоремой сложения м. о. и правилом вынесения неслучайной величины за знак м. о., получим:

.

7. Дисп ep сия суммы случайных величин

Дисперсия суммы двух случайных величин равна сумме их дисперсий плюс удвоенный корреляционный момент:

Доказательство. Обозначим

По теореме сложения математических ожиданий

Перейдем от случайных величин к соответствующим центрированным величинам . Вычитая почленно из равенства (10.2.8) равенство (10.2.9), имеем:

По определению дисперсии

что и требовалось доказать.

Формула (10.2.7) для дисперсии суммы может быть обобщена на любое число слагаемых:

, (10.2.10)

где - корреляционный момент величин , знак под суммой обозначает, что суммирование распространяется на все возможные попарные сочетания случайных величин .

Доказательство аналогично предыдущему и вытекает из формулы для квадрата многочлена.

Формула (10.2.10) может быть записана еще в другом виде:

, (10.2.11)

где двойная сумма распространяется на все элементы корреляционной матрицы системы величин , содержащей как корреляционные моменты, так и дисперсии.

Если все случайные величины , входящие в систему, некоррелированы (т. е. при ), формула (10.2.10) принимает вид:

, (10.2.12)

т. е. дисперсия суммы некоррелированных случайных величин равна сумме дисперсий слагаемых.

Это положение известно под названием теоремы сложения дисперсий.

8. Дисперсия линейной функции

Рассмотрим линейную функцию нескольких случайных величин.

где - неслучайные величины.

Докажем, что дисперсия этой линейной функции выражается формулой

, (10.2.13)

где - корреляционный момент величин , .

Доказательство. Введем обозначение:

. (10.2.14)

Применяя к правой части выражения (10.2.14) формулу (10.2.10) для дисперсии суммы и учитывая, что , получим:

где - корреляционный момент величин :

.

Вычислим этот момент. Имеем:

;

аналогично

Подставляя это выражение в (10.2.15), приходим к формуле (10.2.13).

В частном случае, когда все величины некоррелированны, формула (10.2.13) принимает вид:

, (10.2.16)

т. е. дисперсия линейной функции некоррелированных случайных величин равна сумме произведений квадратов коэффициентов на дисперсии соответствующих аргументов.

9. Математическое ожидание произведения случайных величин

Математическое ожидание произведения двух случайных величин равно произведению их математических ожиданий плюс корреляционный момент:

Доказательство. Будем исходить из определения корреляционного момента:

Преобразуем это выражение, пользуясь свойствами математического ожидания:

что, очевидно, равносильно формуле (10.2.17).

Если случайные величины некоррелированны , то формула (10.2.17) принимает вид:

т. е. математическое ожидание произведения двух некоррелированных случайных величин равно произведению их математических ожиданий.

Это положение известно под названием теоремы умножения математических ожиданий.

Формула (10.2.17) представляет собой не что иное, как выражение второго смешанного центрального момента системы через второй смешанный начальный момент и математические ожидания:

. (10.2.19)

Это выражение часто применяется на практике при вычислении корреляционного момента аналогично тому, как для одной случайной величины дисперсия часто вычисляется через второй начальный момент и математическое ожидание.

Теорема умножения математических ожиданий обобщается и на произвольное число сомножителей, только в этом случае для ее применения недостаточно того, чтобы величины были некоррелированны, а требуется, чтобы обращались в нуль и некоторые высшие смешанные моменты, число которых зависит от числа членов в произведении. Эти условия заведомо выполнены при независимости случайных величин, входящих в произведение. В этом случае

, (10.2.20)

т. е. математическое ожидание произведения независимых случайных величин равно произведению их математических ожиданий.

Это положение легко доказывается методом полной индукции.

10. Дисперсия произведения независимых случайных величин

Докажем, что для независимых величин

Доказательство. Обозначим . По определению дисперсии

Так как величины независимы, и

При независимых величины тоже независимы; следовательно,

,

Но есть не что иное, как второй начальный момент величины , и, следовательно, выражается через дисперсию:

;

аналогично

.

Подставляя эти выражения в формулу (10.2.22) и приводя подобные члены, приходим к формуле (10.2.21).

В случае, когда перемножаются центрированные случайные величины (величины с математическими ожиданиями, равными нулю), формула (10.2.21) принимает вид:

, (10.2.23)

т. е. дисперсия произведения независимых центрированных случайных величин равна произведению их дисперсий.

11. Высшие моменты суммы случайных величин

В некоторых случаях приходится вычислять высшие моменты суммы независимых случайных величин. Докажем некоторые относящиеся сюда соотношения.

1) Если величины независимы, то

Доказательство.

откуда по теореме умножения математических ожиданий

Но первый центральный момент для любой величины равен нулю; два средних члена обращаются в нуль, и формула (10.2.24) доказана.

Соотношение (10.2.24) методом индукции легко обобщается на произвольное число независимых слагаемых:

. (10.2.25)

2) Четвертый центральный момент суммы двух независимых случайных величин выражается формулой

где - дисперсии величин и .

Доказательство совершенно аналогично предыдущему.

Методом полной индукции легко доказать обобщение формулы (10.2.26) на произвольное число независимых слагаемых.

Дисперсия случайной величины является мерой разброса значений этой величины. Малая дисперсия означает, что значения сгруппированы близко друг к другу. Большая дисперсия свидетельствует о сильном разбросе значений. Понятие дисперсии случайной величины применяется в статистике. Например, если сравнить дисперсию значений двух величин (таких как результаты наблюдений за пациентами мужского и женского пола), можно проверить значимость некоторой переменной. Также дисперсия используется при построении статистических моделей, так как малая дисперсия может быть признаком того, что вы чрезмерно подгоняете значения.

Шаги

Вычисление дисперсии выборки

  1. Запишите значения выборки. В большинстве случаев статистикам доступны только выборки определенных генеральных совокупностей. Например, как правило, статистики не анализируют расходы на содержание совокупности всех автомобилей в России – они анализируют случайную выборку из нескольких тысяч автомобилей. Такая выборка поможет определить средние расходы на автомобиль, но, скорее всего, полученное значение будет далеко от реального.

    • Например, проанализируем количество булочек, проданных в кафе за 6 дней, взятых в случайном порядке. Выборка имеет следующий вид: 17, 15, 23, 7, 9, 13. Это выборка, а не совокупность, потому что у нас нет данных о проданных булочках за каждый день работы кафе.
    • Если вам дана совокупность, а не выборка значений, перейдите к следующему разделу.
  2. Запишите формулу для вычисления дисперсии выборки. Дисперсия является мерой разброса значений некоторой величины. Чем ближе значение дисперсии к нулю, тем ближе значения сгруппированы друг к другу. Работая с выборкой значений, используйте следующую формулу для вычисления дисперсии:

    • s 2 {\displaystyle s^{2}} = ∑[( x i {\displaystyle x_{i}} - x̅) 2 {\displaystyle ^{2}} ] / (n - 1)
    • s 2 {\displaystyle s^{2}} – это дисперсия. Дисперсия измеряется в квадратных единицах измерения.
    • x i {\displaystyle x_{i}} – каждое значение в выборке.
    • x i {\displaystyle x_{i}} нужно вычесть x̅, возвести в квадрат, а затем сложить полученные результаты.
    • x̅ – выборочное среднее (среднее значение выборки).
    • n – количество значений в выборке.
  3. Вычислите среднее значение выборки. Оно обозначается как x̅. Среднее значение выборки вычисляется как обычное среднее арифметическое: сложите все значения в выборке, а затем полученный результат разделите на количество значений в выборке.

    • В нашем примере сложите значения в выборке: 15 + 17 + 23 + 7 + 9 + 13 = 84
      Теперь результат разделите на количество значений в выборке (в нашем примере их 6): 84 ÷ 6 = 14.
      Выборочное среднее x̅ = 14.
    • Выборочное среднее – это центральное значение, вокруг которого распределены значения в выборке. Если значения в выборке группируются вокруг выборочного среднего, то дисперсия мала; в противном случае дисперсия велика.
  4. Вычтите выборочное среднее из каждого значения в выборке. Теперь вычислите разность x i {\displaystyle x_{i}} - x̅, где x i {\displaystyle x_{i}} – каждое значение в выборке. Каждый полученный результат свидетельствует о мере отклонения конкретного значения от выборочного среднего, то есть как далеко это значение находится от среднего значения выборки.

    • В нашем примере:
      x 1 {\displaystyle x_{1}} - x̅ = 17 - 14 = 3
      x 2 {\displaystyle x_{2}} - x̅ = 15 - 14 = 1
      x 3 {\displaystyle x_{3}} - x̅ = 23 - 14 = 9
      x 4 {\displaystyle x_{4}} - x̅ = 7 - 14 = -7
      x 5 {\displaystyle x_{5}} - x̅ = 9 - 14 = -5
      x 6 {\displaystyle x_{6}} - x̅ = 13 - 14 = -1
    • Правильность полученных результатов легко проверить, так как их сумма должна равняться нулю. Это связано с определением среднего значения, так как отрицательные значения (расстояния от среднего значения до меньших значений) полностью компенсируются положительными значениями (расстояниями от среднего значения до больших значений).
  5. Как отмечалось выше, сумма разностей x i {\displaystyle x_{i}} - x̅ должна быть равна нулю. Это означает, что средняя дисперсия всегда равна нулю, что не дает никакого представления о разбросе значений некоторой величины. Для решения этой проблемы возведите в квадрат каждую разность x i {\displaystyle x_{i}} - x̅. Это приведет к тому, что вы получите только положительные числа, которые при сложении никогда не дадут 0.

    • В нашем примере:
      ( x 1 {\displaystyle x_{1}} - x̅) 2 = 3 2 = 9 {\displaystyle ^{2}=3^{2}=9}
      (x 2 {\displaystyle (x_{2}} - x̅) 2 = 1 2 = 1 {\displaystyle ^{2}=1^{2}=1}
      9 2 = 81
      (-7) 2 = 49
      (-5) 2 = 25
      (-1) 2 = 1
    • Вы нашли квадрат разности - x̅) 2 {\displaystyle ^{2}} для каждого значения в выборке.
  6. Вычислите сумму квадратов разностей. То есть найдите ту часть формулы, которая записывается так: ∑[( x i {\displaystyle x_{i}} - x̅) 2 {\displaystyle ^{2}} ]. Здесь знак Σ означает сумму квадратов разностей для каждого значения x i {\displaystyle x_{i}} в выборке. Вы уже нашли квадраты разностей (x i {\displaystyle (x_{i}} - x̅) 2 {\displaystyle ^{2}} для каждого значения x i {\displaystyle x_{i}} в выборке; теперь просто сложите эти квадраты.

    • В нашем примере: 9 + 1 + 81 + 49 + 25 + 1 = 166 .
  7. Полученный результат разделите на n - 1, где n – количество значений в выборке. Некоторое время назад для вычисления дисперсии выборки статистики делили результат просто на n; в этом случае вы получите среднее значение квадрата дисперсии, которое идеально подходит для описания дисперсии данной выборки. Но помните, что любая выборка – это лишь небольшая часть генеральной совокупности значений. Если взять другую выборку и выполнить такие же вычисления, вы получите другой результат. Как выяснилось, деление на n - 1 (а не просто на n) дает более точную оценку дисперсии генеральной совокупности, в чем вы и заинтересованы. Деление на n – 1 стало общепринятым, поэтому оно включено в формулу для вычисления дисперсии выборки.

    • В нашем примере выборка включает 6 значений, то есть n = 6.
      Дисперсия выборки = s 2 = 166 6 − 1 = {\displaystyle s^{2}={\frac {166}{6-1}}=} 33,2
  8. Отличие дисперсии от стандартного отклонения. Заметьте, что в формуле присутствует показатель степени, поэтому дисперсия измеряется в квадратных единицах измерения анализируемой величины. Иногда такой величиной довольно сложно оперировать; в таких случаях пользуются стандартным отклонением, которое равно квадратному корню из дисперсии. Именно поэтому дисперсия выборки обозначается как s 2 {\displaystyle s^{2}} , а стандартное отклонение выборки – как s {\displaystyle s} .

    • В нашем примере стандартное отклонение выборки: s = √33,2 = 5,76.

    Вычисление дисперсии совокупности

    1. Проанализируйте некоторую совокупность значений. Совокупность включает в себя все значения рассматриваемой величины. Например, если вы изучаете возраст жителей Ленинградской области, то совокупность включает возраст всех жителей этой области. В случае работы с совокупностью рекомендуется создать таблицу и внести в нее значения совокупности. Рассмотрим следующий пример:

      • В некоторой комнате находятся 6 аквариумов. В каждом аквариуме обитает следующее количество рыб:
        x 1 = 5 {\displaystyle x_{1}=5}
        x 2 = 5 {\displaystyle x_{2}=5}
        x 3 = 8 {\displaystyle x_{3}=8}
        x 4 = 12 {\displaystyle x_{4}=12}
        x 5 = 15 {\displaystyle x_{5}=15}
        x 6 = 18 {\displaystyle x_{6}=18}
    2. Запишите формулу для вычисления дисперсии генеральной совокупности. Так как в совокупность входят все значения некоторой величины, то приведенная ниже формула позволяет получить точное значение дисперсии совокупности. Для того чтобы отличить дисперсию совокупности от дисперсии выборки (значение которой является лишь оценочным), статистики используют различные переменные:

      • σ 2 {\displaystyle ^{2}} = (∑( x i {\displaystyle x_{i}} - μ) 2 {\displaystyle ^{2}} ) / n
      • σ 2 {\displaystyle ^{2}} – дисперсия совокупности (читается как «сигма в квадрате»). Дисперсия измеряется в квадратных единицах измерения.
      • x i {\displaystyle x_{i}} – каждое значение в совокупности.
      • Σ – знак суммы. То есть из каждого значения x i {\displaystyle x_{i}} нужно вычесть μ, возвести в квадрат, а затем сложить полученные результаты.
      • μ – среднее значение совокупности.
      • n – количество значений в генеральной совокупности.
    3. Вычислите среднее значение совокупности. При работе с генеральной совокупностью ее среднее значение обозначается как μ (мю). Среднее значение совокупности вычисляется как обычное среднее арифметическое: сложите все значения в генеральной совокупности, а затем полученный результат разделите на количество значений в генеральной совокупности.

      • Имейте в виду, что средние величины не всегда вычисляются как среднее арифметическое.
      • В нашем примере среднее значение совокупности: μ = 5 + 5 + 8 + 12 + 15 + 18 6 {\displaystyle {\frac {5+5+8+12+15+18}{6}}} = 10,5
    4. Вычтите среднее значение совокупности из каждого значения в генеральной совокупности. Чем ближе значение разности к нулю, тем ближе конкретное значение к среднему значению совокупности. Найдите разность между каждым значением в совокупности и ее средним значением, и вы получите первое представление о распределении значений.

      • В нашем примере:
        x 1 {\displaystyle x_{1}} - μ = 5 - 10,5 = -5,5
        x 2 {\displaystyle x_{2}} - μ = 5 - 10,5 = -5,5
        x 3 {\displaystyle x_{3}} - μ = 8 - 10,5 = -2,5
        x 4 {\displaystyle x_{4}} - μ = 12 - 10,5 = 1,5
        x 5 {\displaystyle x_{5}} - μ = 15 - 10,5 = 4,5
        x 6 {\displaystyle x_{6}} - μ = 18 - 10,5 = 7,5
    5. Возведите в квадрат каждый полученный результат. Значения разностей будут как положительными, так и отрицательными; если нанести эти значения на числовую прямую, то они будут лежать справа и слева от среднего значения совокупности. Это не годится для вычисления дисперсии, так как положительные и отрицательные числа компенсируют друг друга. Поэтому возведите в квадрат каждую разность, чтобы получить исключительно положительные числа.

      • В нашем примере:
        ( x i {\displaystyle x_{i}} - μ) 2 {\displaystyle ^{2}} для каждого значения совокупности (от i = 1 до i = 6):
        (-5,5) 2 {\displaystyle ^{2}} = 30,25
        (-5,5) 2 {\displaystyle ^{2}} , где x n {\displaystyle x_{n}} – последнее значение в генеральной совокупности.
      • Для вычисления среднего значения полученных результатов нужно найти их сумму и разделить ее на n:(( x 1 {\displaystyle x_{1}} - μ) 2 {\displaystyle ^{2}} + ( x 2 {\displaystyle x_{2}} - μ) 2 {\displaystyle ^{2}} + ... + ( x n {\displaystyle x_{n}} - μ) 2 {\displaystyle ^{2}} ) / n
      • Теперь запишем приведенное объяснение с использованием переменных: (∑( x i {\displaystyle x_{i}} - μ) 2 {\displaystyle ^{2}} ) / n и получим формулу для вычисления дисперсии совокупности.

Решение.

В качестве меры рассеивания значений случайной величины используется дисперсия

Дисперсия (слово дисперсия означает "рассеяние") есть мера рассеивания значений случайной величины относительно ее математического ожидания. Дисперсией называется математическое ожидание квадрата отклонения случайной величины от ее математического ожидания

Если случайная величина - дискретная с бесконечным, но счетным множеством значений, то

если ряд в правой части равенства сходится.

Свойства дисперсии.

  • 1. Дисперсия постоянной величины равна нулю
  • 2. Дисперсия суммы случайных величин равна сумме дисперсий
  • 3. Постоянный множитель можно выносить за знак дисперсии в квадрате

Дисперсия разности случайных величин равна сумме дисперсий

Это свойство является следствием второго и третьего свойств. Дисперсии могут только складываться.

Дисперсию удобно вычислять по формуле, которую легко получить, используя свойства дисперсии

Дисперсия всегда величина положительная .

Дисперсия имеет размерность квадрата размерности самой случайной величины, что не всегда удобно. Поэтому в качестве показателя рассеяния используют также величину

Средним квадратическим отклонением (стандартным отклонением или стандартом) случайной величиныназывается арифметическое значение корня квадратного из её дисперсии

Бросают две монеты достоинством 2 и 5 рублей. Если монета выпадает гербом, то начисляют ноль очков, а если цифрой, то число очков, равное достоинству монеты. Найти математическое ожидание и дисперсию числа очков.

Решение. Найдем вначале распределение случайной величины Х - числа очков. Все комбинации - (2;5),(2;0),(0;5),(0;0) - равновероятны и закон распределения:

Математическое ожидание:

Дисперсию найдем по формуле

для чего вычислим

Пример 2.

Найти неизвестную вероятность р , математическое ожидание и дисперсию дискретной случайной величины, заданной таблицей распределения вероятностей

Находим математическое ожидание и дисперсию:

M (X ) = 00,0081 + 10,0756 + 20,2646 + 3 0,4116 + +40,2401=2,8

Для вычисления дисперсии воспользуемся формулой (19.4)

D (X ) = 020 ,0081 + 120,0756 + 220,2646 + 320,4116 + 420,2401 - 2,82 = 8,68 -

Пример 3. Два равносильных спортсмена проводят турнир, который длится или до первой победы одного из них, или до тех пор, пока не будет сыграно пять партий. Вероятность победы в одной партии для каждого из спортсменов равна 0,3, а вероятность ничейного исхода партии 0,4. Найти закон распределения, математическое ожидание и дисперсию числа сыгранных партий.

Решение. Случайная величина Х - количество сыгранных партий, принимает значения от 1 до 5, т. е.

Определим вероятности окончания матча. Матч закончится на первой партии, если кто-то их спортсменов выиграл. Вероятность выигрыша равна

Р (1) = 0,3+0,3 =0,6.

Если же была ничья (вероятность ничьей равна 1 - 0,6 = 0,4), то матч продолжается. Матч закончится на второй партии, если в первой была ничья, а во второй кто-то выиграл. Вероятность

Р (2) = 0,4 0,6=0,24.

Аналогично, матч закончится на третьей партии, если было подряд две ничьи и опять кто-то выиграл

Р (3) = 0,4 0,4 0,6 = 0,096. Р (4)= 0,4 0,4 0,4 0,6=0,0384.

Пятая партия в любом варианте последняя.

Р (5)= 1 - (Р (1)+Р (2)+Р (3)+Р (4)) = 0,0256.

Сведем все в таблицу. Закон распределения случайной величины "число выигранных партий" имеет вид

Математическое ожидание

Дисперсию вычисляем по формуле (19.4)

Стандартные дискретные распределения.

Биномиальное распределение. Пусть реализуется схема опытов Бернулли: проводится n одинаковых независимых опытов, в каждом из которых событие A может появиться с постоянной вероятностью p и не появится с вероятностью

(см. лекцию 18).

Число появлений события A в этих n опытах есть дискретная случайная величина X , возможные значения которой:

0; 1; 2; ... ; m ; ... ; n.

Вероятность появления m событий A в конкретной серии из n опытов с и закон распределения такой случайной величины задается формулой Бернулли (см. лекцию 18)

Числовые характеристики случайной величины X распределенной по биномиальному закону:

Если n велико (), то, при, формула (19.6) переходит в формулу

а табулированная функция Гаусса (таблица значений функции Гаусса приведена в конце 18 лекции).

На практике часто важна не сама вероятность появления m событий A в конкретной серии из n опытов, а вероятность того, что событие А появится не менее

раз и не более раз, т. е. вероятность того, что Х принимает значения

Для этого надо просуммировать вероятности

Если n велико (), то, при, формула (19.9) переходит в приближенную формулу

табулированная функция. Таблицы приведены в конце лекции 18.

При использовании таблиц надо учесть, что

Пример 1 . Автомобиль, подъезжая к перекрестку, может продолжить движение по любой из трех дорог: A, B или C с одинаковой вероятностью. К перекрестку подъезжают пять автомобилей. Найти среднее число автомашин, которое поедет по дороге A и вероятность того, что по дороге B поедет три автомобиля.

Решение. Число автомашин проезжающих по каждой из дорог является случайной величиной. Если предположить, что все подъезжающие к перекрестку автомобили совершают поездку независимо друг от друга, то эта случайная величина распределена по биномиальному закону с

n = 5 и p = .

Следовательно, среднее число автомашин, которое проследует по дороге A, есть по формуле (19.7)

а искомая вероятность при

Пример 2. Вероятность отказа прибора при каждом испытании 0,1. Производится 60 испытаний прибора. Какова вероятность того, что отказ прибора произойдёт: а) 15 раз; б) не более 15 раз?

а. Так как число испытаний 60, то используем формулу (19.8)

По таблице 1 приложения к лекции 18 находим

б . Используем формулу (19.10).

По таблице 2 приложения к лекции 18

  • - 0,495
  • 0,49995

Распределение Пуассона) закон редких явлений). Если n велико, а р мало (), при этом произведение пр сохраняет постоянное значение, которое обозначим л,

то формула (19.6) переходит в формулу Пуассона

Закон распределения Пуассона имеет вид:

Очевидно, что определение закона Пуассона корректно, т.к. основное свойство ряда распределения

выполнено, т.к. сумма ряда

В скобках записано разложение в ряд функции при

Теорема. Математическое ожидание и дисперсия случайной величины, распределенной по закону Пуассона, совпадают и равны параметру этого закона, т.е.

Доказательство.

Пример. Для продвижения своей продукции на рынок фирма раскладывает по почтовым ящикам рекламные листки. Прежний опыт работы показывает, что примерно в одном случае из 2 000 следует заказ. Найти вероятность того, что при размещении 10 000 рекламных листков поступит хотя бы один заказ, среднее число поступивших заказов и дисперсию числа поступивших заказов.

Решение . Здесь

Вероятность того, что поступит хотя бы один заказ, найдем через вероятность противоположного события, т.е.

Случайный поток событий. Потоком событий называется последовательность событий, происходящие в случайные моменты времени. Типичными примерами потоков являются сбои в компьютерных сетях, вызовы на телефонных станциях, поток заявок на ремонт оборудования и т. д.

Поток событий называется стационарным , если вероятность попадания того или иного числа событий на временной интервал длины зависит только от длины интервала и не зависит не зависит от расположения временного интервала на оси времени.

Условию стационарности удовлетворяет поток заявок, вероятностные характеристики которого не зависят от времени. В частности, для стационарного потока характерна постоянная плотность (среднее число заявок в единицу времени). На практике часто встречаются потоки заявок, которые (по крайней мере, на ограниченном отрезке времени) могут рассматриваться как стационарные. Например, поток вызовов на городской телефонной станции на участке времени от 12 до 13 часов может считаться стационарным. Тот же поток в течение целых суток уже не может считаться стационарным (ночью плотность вызовов значительно меньше, чем днем).

Поток событий называется потоком с отсутствием последействия , если для любых неперекрывающихся участков времени число событий, попадающих на один из них, не зависит от числа событий, попадающих на другие.

Условие отсутствия последействия - наиболее существенное для простейшего потока - означает, что заявки поступают в систему независимо друг от друга. Например, поток пассажиров, входящие на станцию метро, можно считать потоком без последействия потому, что причины, обусловившие приход отдельного пассажира именно в тот, а не другой момент, как правило, не связаны с аналогичными причинами для других пассажиров. Однако условие отсутствия последействия может быть легко нарушено за счет появления такой зависимости. Например, поток пассажиров, покидающих станцию метро, уже не может считаться потоком без последействия, так как моменты выхода пассажиров, прибывших одним и тем же поездом, зависимы между собой.

Поток событий называется ординарным , если вероятность попадания на малый интервал времени t двух или более событий пренебрежимо мала по сравнению с вероятностью попадания одного события (в этой связи закон Пуассона называют законом редких событий).

Условие ординарности означает, что заявки приходят поодиночке, а не парами, тройками и т. д. дисперсия отклонение распределение бернулли

Например, поток клиентов, входящих в парикмахерскую, может считаться практически ординарным. Если в неординарном потоке заявки поступают только парами, только тройками и т. д., то неординарный поток легко свести к ординарному; для этого достаточно вместо потока отдельных заявок рассмотреть поток пар, троек и т. д. Сложнее будет, если каждая заявка случайным образом может оказаться двойной, тройной и т. д. Тогда уже приходится иметь дело с потоком не однородных, а разнородных событий.

Если поток событий обладает всеми тремя свойствами (т. е. стационарен, ординарен и не имеет последействия), то он называется простейшим (или стационарным пуассоновским) потоком. Название "пуассоновский" связано с тем, что при соблюдении перечисленных условий число событий, попадающих на любой фиксированный интервал времени, будет распределено по закону Пуассона

Здесь - среднее число событий A , появляющихся за единицу времени.

Этот закон однопараметрический, т.е. для его задания требуется знать только один параметр. Можно показать, что математическое ожидание и дисперсия в законе Пуассона численно равны:

Пример . Пусть в середине рабочего дня среднее число запросов равняется 2 в секунду. Какова вероятность того, что 1) за секунду не поступит ни одной заявки, 2) за две секунды поступит 10 заявок?

Решение. Поскольку правомерность применения закона Пуассона не вызывает сомнения и его параметр задан (= 2), то решение задачи сводится к применении формулы Пуассона (19.11)

1) t = 1, m = 0:

2) t = 2, m = 10:

Закон больших чисел. Математическим основанием того факта, что значения случайной величины группируются около некоторых постоянных величин, является закон больших чисел.

Исторически первой формулировкой закона больших чисел стала теорема Бернулли:

"При неограниченном увеличении числа одинаковых и независимых опытов n частота появления события A сходится по вероятности к его вероятности", т.е.

где частота появления события A в n опытах,

Содержательно выражение (19.10) означает, что при большом числе опытов частота появления события A может заменять неизвестную вероятность этого события и чем больше число проведенных опытов, тем ближе р* к р. Интересен исторический факт. К. Пирсон бросал монету 12000 раз и герб у него выпал 6019 раз (частота 0.5016). При бросании этой же монеты 24000 раз он получил 12012 выпадений герба, т.е. частоту 0.5005.

Наиболее важной формой закона больших чисел является теорема Чебышева: при неограниченном возрастании числа независимых, имеющих конечную дисперсию и проводимых в одинаковых условиях опытов среднее арифметическое наблюденных значений случайной величины сходится по вероятности к ее математическому ожиданию . В аналитической форме эта теорема может быть записана так:

Теорема Чебышева кроме фундаментального теоретического значения имеет и важное практическое применение, например, в теории измерений. Проведя n измерений некоторой величины х , получают различные несовпадающие значения х 1, х 2, ..., хn . За приближенное значение измеряемой величины х принимают среднее арифметическое наблюденных значений

При этом, чем больше будет проведено опытов, тем точнее будет полученный результат. Дело в том, что дисперсия величины убывает с возрастанием числа проведенных опытов, т.к.

D (x 1) = D (x 2)=…= D (xn ) D (x ) , то

Соотношение (19.13) показывает, что и при высокой неточности приборов измерения (большая величина) за счет увеличения количества измерений можно получать результат со сколь угодно высокой точностью.

Используя формулу (19.10) можно найти вероятность того, что статистическая частота отклоняется от вероятности не более, чем на

Пример. Вероятность события в каждом испытании равна 0,4. Сколько нужно провести испытаний, чтобы с вероятностью, не меньшей, чем 0,8 ожидать, что относительная частота события будет отклоняться от вероятности по модулю менее, чем на 0,01?

Решение. По формуле (19.14)

следовательно, по таблице два приложения

следовательно, n 3932.