birmaga.ru
добавить свой файл

1
Занятие 15-16.


ПЕРВИЧНАЯ ОБРАБОТКА ВЫБОРКИ И ИНТЕРВАЛЬНОЕ ОЦЕНИВАНИЕ



Основные определения и формулы
Под генеральной совокупностью с функцией распределения Fξ(x) будем понимать гипотетическую совокупность всех возможных значений случайной величины ξ. Вместо функции распределения Fξ(x) может использоваться плотность распределения fξ(x), либо закон распределения ξ, заданный в виде таблицы.

Набор n значений случайной величины, полученных в результате эксперимента, называется выборкой объема n из генеральной совокупности, а числа х
1, х2, ..., хn – выборочными значениями случайной величины ξ.

Выборке {х
1, х2, ..., хn} поставим в соответствие случайную величину, принимающую эти значения с вероятностями 1/n:



и будем называть ее выборочным распределением.

Первичная обработка выборки включает следующие операции:


  1. упорядочение по возрастанию х1 < х2 < ... < хn, приводит исходные данные к выборке, которая называется вариационным рядом;
  2. вычисление частоты ni элемента zi в том случае, когда z1, …, zk представляют разные (не равные между собой) числа в исходной выборке {х1, х2, ..., хn} так, что ni равно числу повторяющихся элементов, соответствующих zi (i = 1, …, k); полученная таким образом новая выборка {zi, ni} называется статистическим рядом;


  3. вычисление относительной частоты νi = ni/n и последовательных сумм ν1+ ν2 + …+ νi, которые представляют накопленные частоты элемента zi.

Для получения статистического ряда {zi, ni} может использоваться и более общий механизм, когда zi представляет не просто равные элементы, а близкие в определенном смысле. Например, это могут быть элементы, попадающие в i-й полуинтервал вида [xi, xi+1).

Если функция распределения зависит то некоторого параметра θ, то есть Fξ(x) = Fξ(x, θ), то можно рассмотреть задачу оценивания этого параметра по n значениям выборочных данных {х1, х2, ..., хn}. Функцию θn от этих значений будем называть оценкой параметра θ.

Если в качестве оценок используются выборочные характеристики случайной величины, оценки называются точечными. Такими оценками являются:

  • выборочное среднее

,

для нахождения которого в Excel используется функция СРЗНАЧ (x1;x2;…,xn);

  • выборочная дисперсия


для нахождения которой в Excel используется функция ДИСП (x1; x2; …, xn).

Если для параметра θ можно указать некоторый интервал (θ1, θ2), для которого

p (θ1 < θ < θ2) = 1 – α,

где α – малое число, называемое уровнем значимости, то говорят об интервальных оценках. Интервал (θ1, θ2) называется доверительным интервалом для параметра θ с доверительной вероятностью 1 – α. В рассматриваемых упражнениях будем строить симметричные интервалы вида (θ1, θ2) = (θn - Δ, θn + Δ) для точечной оценки θn параметра θ.

При известной дисперсии σ2 нормальной генеральной совокупности значение Δ для математического ожидания задается формулой

,

где z1-α/2 вычисляется c помощью функции Excel НОРМСТОБР(вероятность).

Пример 1

В ходе исследования рецидивной преступности из документов были собраны данные о числе повторных судимостей двадцати случайно отобранных человек, имевших в прошлом одну или более судимостей. Число повторных судимостей приведено в таблице:

1


1

1

2

3

1

1

1

1

2

2

2

1

1

1

1

1

2

2

1

Задача:

  • Провести первичную обработку рассматриваемых данных, построить график накопленных относительных частот и найти доверительный интервал с уровнем значимости α = 0,05

Методические указания для выполнения работы

1) В ячейку [B2] введем Выборка. Укажем в массиве ячеек [B3:B22] выборку (n = 20): 1, 1, 1, 2, 3, 1, 1, 1, 1, 2, 2, 2, 1, 1, 1, 1, 1, 2, 2, 1.

2) Для формирования вариационного ряда (упорядочения) необходимо в ячейку [С2] ввести Вариационный ряд, затем скопировать содержимое ячеек [В3:B22] в диапазон [С3:С22] и сортировать по возрастанию.

Выделить диапазон [С3:С22] Данные  Сортировка по возрастанию  Сортировать в пределах указанного диапазона

3) В ячейку [B24] введем Размах (разность между наибольшим и наименьшим значением выборки). В ячейке [С24]:= [С22]- [С3].


4) В ячейку [B25] введем Объем выборки (набор n значений случайной величины). В ячейке [С25]:=СЧЕТ(С3:С22).

5) В ячейке [D2] введем Интервалы. Укажем в массиве ячеек [D3:D5] значения интервалов по разным значениям вариационного ряда: 1, 2, 3, которые обозначают число повторных судимостей.

6) Для нахождения частоты повторений значений (количества человек с повторными судимостями) в пределах интервалов необходимо в ячейке [Е2] ввести Частота.

Выделить диапазон [E3:E5]  Вставка функции Статистические ЧАСТОТА  Массив_данных: С3:С22, Массив_интервалов: D3:D5  нажать , появятся {} ОК

7) В ячейку [F2] введем Относительная частота. Для нахождения относительной частоты необходимо соответствующее значение частоты разделить на общее число значений выборки n.

В ячейку [F3] введем формулу: = E3/$C$25  ОК. Скопируем эту формулу в ячейки [F4] и [F5]. В итоге получим значения {0.7, 0.3, 0.1}.

8) Найдем накопленную относительную частоту путем поочередного сложения значений относительной частоты, начиная со второго. В ячейку [G2] введем Накопленная относительная частота.

Ячейка [G3] по определению равна ячейке [F3]. Далее в ячейку [G4] введем формулу: =G3+F4  ОК. Скопируем эту формулу в ячейку [G5]. Получим значения {0,7, 1, 1}.

9) Построим график накопленной относительной частоты.

 Вставка Диаграмма График Диапазон [G3:G5]
10) В ячейке [H2] введем mи вычислим выборочное среднее.

В ячейке [H3] введем формулу  Вставка функции Статистические СРЗНАЧ m: C3:C22  получим значение 1,4.

11) В ячейке [I2] введем S2 и вычислим дисперсию.

В ячейке [I3] введем формулу  Вставка функции Статистические  ДИСП x1: C3:C22  получим значение 0,36.


12) Введем обозначения: в [B27] введем , в [B28] введем 1-α/2, в [B29] введем Z1-α/2, в [B30] введем Δ.

Принятое значение уровня значимости , равное 0,05, введем в ячейку [С27].

В [C28] вычислим 1-α/2: =1-C27/2  получим 0,975.

В [C29] вычислим значение Z1-α/2:  Вставка функции Статистические НОРМСТОБР  Вероятность: C28  получим 1,960.

В ячейке [C30] вычислим значение Δ: =C29*(I3/C25)^(1/2)  получим 0,262.

13) В ячейку [B31] введем Доверительный интервал.

Вычислим (m- Δ; m+ Δ) в ячейках [C31] и [D31] соответственно  получим значения (1,138; 1,662).

Задания для самостоятельной работы

Провести первичную обработку данных, вычислить точечные оценки среднего x и дисперсии S2, найти доверительный интервал (x - Δ; x + Δ) для среднего значенияx, считая xi ~ N (m, σ) для элементов xi, i = 1, 2, …, n выборки {х1, х2, ..., хn}, используя полученное S2 в качестве известного значения σ2. Данные для обработки приводятся в следующих вариантах.

Вариант 1.

По документам n = 30 рецидивистов собраны сведения о времени между окончанием меры наказания за первое преступление и привлечением к наказанию за второе преступление. Данные приведены в таблице

3


1

2

1

4

2

2

1

1

3

3

5

5

4

2

2

5

5

3

3

1

5

4

2

3

0,5

2

0,5

0,5

5

Ответ: (x – Δ;x + Δ) = (2,12; 3,23)