Оценка характеристик случайной величины

Статистическое исследование начинается со сбора данных. Для этого производится n опытов (наблюдений) и регистрируются их результаты. Если xi — значение исследуемой случайной величины Х, полученное в i-м опыте, то последовательность x1, x2, x3, …, xn  называют выборкой.

Число опытов n называется объемом выборки. Выборка является исходным материалом для всех дальнейших статистических выводов о случайной величине Х.

Если элементы выборки записать в порядке их возрастания, то полученная последовательность будет называться вариационным рядом. Разность между максимальным и минимальным элементами выборки называют размахом выборки (R).

Если в выборке объема n элемент xi встречается ni раз, то число ni называют частотой элемента xi, а последовательность пар (xi, ni) — статистическим рядом. Статистический ряд записывают в виде таблицы, 1-я строка которой содержит элементы xi, а 2-я — их частоты ni.

При большом объеме выборки ее элементы объединяют в группы (разряды), представляя результаты опытов в виде группированной выборки. Для этого весь интервал значений выборки разбивают на k частичных интервалов или разрядов (рангов); в зависимости от объема выборки число интервалов k.

Затем для каждого интервала (ai; ai+1) подсчитывают число mi значений выборки, попавших в этот интервал. Очередное значение xi относится к i-му интервалу, если ai ≤ xi < ai+1.

Числа mi называются частотами. Результат этой группировки сводится в таблицу (табл. 7.2).

Оценка характеристик случайной величины

Первые три колонки таблицы 7.2 представляют группированную выборку.

Наряду с частотами одновременно подсчитываются и заносятся в таблицу представители интервалов, в качестве которых обычно берут середины интервалов zi = (ai + ai+1)/2, относительные частоты pi* = mi /n и плотности относительных частот:

Оценка характеристик случайной величины

Для контроля правильности вычислений следует проверить следующие два равенства:

Оценка характеристик случайной величины

Статистической или эмпирической функцией распределения случайной величины Х по имеющейся выборке называется функция F(X), равная относительной частоте события {Х < х}, то есть F(x) = nx/n, где nx — число значений в выборке, меньших x; n — объем выборки.

Гистограммой называется совокупность прямоугольников, основаниями которых служат частичные интервалы, а высоты равны соответствующим плотностям относительных частот.

Если середины верхних сторон прямоугольников соединить ломаной линией, то полученная ломанная называется полигоном.

Гистограмма и полигон могут служить некоторым приближением графика неизвестной плотности распределения f(x) случайной величины Х. Точность приближения возрастает с ростом объема выборки и количества частичных интервалов.

В некоторых случаях строят полигон абсолютных частот, представляющий собой ломаную, отрезки которой соединяют точки

Оценка характеристик случайной величины

где xi — варианты выборки, а ni — соответствующие им частоты.

Он так же позволяет судить о предполагаемом законе распределения случайной величины Х.

Гистограмма является важным вспомогательным средством при принятии гипотезы о виде функции распределения. Поэтому необходимо извлечь из нее максимум информации.

Форма гистограммы зависит от числа и величины интервалов разбиения. При слишком малом числе интервалов разбиения (интервал велик), плохо выявляются характерные особенности распределения.

С ростом числа интервалов характерные особенности выявляются все лучше, но лишь до определенного предела.

При большом числе интервалов (интервал слишком мал) гистограмма снова теряет характерные особенности распределения, превращаясь в пределе (когда в каждом интервале будет не более одного значения) в чередование пустых интервалов и одинаковых по высоте прямоугольников.

Наиболее простой способ разбиения вариационного ряда — это использование равновеликих интервалов, количество которых определяется по специальным формулам, например, по формуле Стенжерса.

Согласно этому правилу при объеме выборки до тысячи полных реализаций рекомендуемое число интервалов разбиения не превышает одиннадцати. Для объемов выборки n < 50, с которыми в основном приходится иметь дело при обработке результатов испытаний на надежность, вид гистограмм слишком чувствителен к способу разбиения, поэтому правило можно использовать лишь как ориентировочное. В этих случаях рекомендуется построить несколько вариантов гистограмм для различных способов разбиения вариационного ряда — для k = 6, 7, 8 и т. д.

Интересно
При построении гистограммы по оси абсцисс откладывают в выбранном масштабе интервалы, и, взяв их как основания, строят прямоугольники, высота которых равна статистической плотности распределения на интервале. Построенная таким образом ступенчатая функция fj называется гистограммой выборки.

Эта функция служит статистическим аналогом плотности распределения вероятности случайной величины.

Площадь гистограммы равна единице:

Оценка характеристик случайной величины

Если соединить кривыми (прямыми) линиями середины верхних (горизонтальных) сторон прямоугольников гистограммы, то получится полигон распределения в виде кривой (прямой) линии (рис. 7.1).

Оценка характеристик случайной величины

При построении нескольких гистограмм с разным количеством интервалов лучшей нужно считать гистограмму, имеющую меньшее число инверсий. Признаком инверсии считается изменение знака приращения высоты прямоугольника. Если число инверсий одинаково, лучшей следует считать ту, которая имеет большее число интервалов.

По данным статистического ряда можно вычислить еще одну характеристику случайной величины — эмпирическую интегральную функцию распределения. Значение эмпирической интегральной функции распределения для j-го интервала Fj определяется по формуле:

Оценка характеристик случайной величины

Функция распределения F(x) может быть представлена в виде графика, который строится подобно гистограмме, только высоты прямоугольников равны значениям функции распределения соответствующих интервалов (m — частота попаданий; m/n — частость, %) (рис. 7.2).

Оценка характеристик случайной величины

Интегральная функция распределения является более универсальной характеристикой распределения по сравнению с гистограммой, которая определяет вероятность того события, что случайная величина X будет меньше или равна заданному значению x.

Эмпирическая интегральная функция распределения определяет частость (опытную вероятность) события X ≤ x. Полигон — ломаная кривая, строится на основе прямоугольной системы координат, когда по оси Х откладываются значения признака, а по оси Y — частоты.

Гладкая кривая, соединяющая точки — это эмпириче- ская плотность распределения. Кумулята — ломаная кривая, строящаяся на основе прямоугольной системы координат, когда по оси Х откладываются значения признака, а по оси Y — накопленные частоты.

Узнай цену консультации

"Да забей ты на эти дипломы и экзамены!” (дворник Кузьмич)