Понятие математической статистики, ее предмет и методы. Типовые задачи

Понарьина Евгения Валентиновна
МБОУ СОШ №43
2016 год
г.Воронеж


Понятие математической статистики, ее предмет и методы. Типовые задачи.

Аннотация. Данная статья это попытка упорядочить и обобщить те знания, которые представляют собой минимум, необходимый для решения задач математической статистики. Статья может быть полезна учителям и учащимся 11 классов на этапе формирования умений и навыков решения задач с использованием изучаемого материала, и представлена в виде блоков, состоящих из определений, решенных типовых примеров и упражнений для самостоятельного решения.

В современном обществе статистика стала одним из важнейших инструментов управления экономикой. Принятие любого управленческого решения требует предварительного анализа имеющейся ситуации, основывается на просчете вариантов развития, сравнении этих вариантов, оценки точности прогнозов, вероятности ошибок. Методическую базу для решения этих вопросов представляет статистика.
Термин «статистика» происходит от латинского слова «статус» - определенное состояние, положение вещей.
Опр. Математическая статистика – наука, изучающая методы сбора, систематизации и обработки результатов наблюдений массовых случайных явлений (величин) с целью выявления статических закономерностей.
Задача математической статистики состоит в создании методов сбора и обработки статистических данных для получения научных и практических выводов.
Предметом математической статистики является изучение случайных величин (событий, процессов) по результатам наблюдения. Полученные в результанте наблюдения (опыта, эксперимента) данные сначала надо:
1) упорядочить
2) оценить
3) проверить статистические гипотезы, т.е. решить вопрос согласования результатов оценивания с опытными данными.
Результаты исследования статистических данных методами математической статистики используются для принятия решения в задачах планирования, управления, прогнозирования и организации производства, при контроле качества продукции, при выборе оптимального времени настройки или замены действующей аппаратуры и т.д.
Генеральная и выборочная совокупности.
Пусть требуется изучить данную совокупность объектов относительно некоторого признака. Например, рассматривая работу диспетчера (продавца, парикмахера и т.д.), можно исследовать: его загруженность, тип клиентов, скорость обслуживания, моменты поступления звонков и т.д. Каждый такой признак (или их комбинации) образуют случайную величину, наблюдения над которой мы и производим.
Опр. Вся совокупность рассматриваемых объектов называется генеральной совокупностью.
Опр. Часть генеральной совокупности называется выборкой.
Опр. Объем выборки (генеральной совокупности) – это число объектов этой совокупности.
Выборка.


Повторная Бесповторная
Опр. Выборка называется повторной, если отобранный объект возвращается в генеральную совокупность перед извлечением следующего, в противном случае выборка называется бесповторной.
Предварительная обработка статистических данных
1) Сначала данные упорядочивают и группируют;
2) Затем составляют таблицы распределения данных;
3) Строят графики распределения данных в виде многоугольника распределения (или полигона), гистограммы распределения или круговой диаграммы;
4) получение паспорта данных измерения, который состоит из небольшого количества основных характеристик полученной информации [1].
Предположим, что из генеральной совокупности извлечена выборка объемом n. Так как выборка случайна, то некоторые значения в выборке могут совпадать. Пусть значение x1 наблюдается n1 раз, x2 n2 раз, ..., xm nm раз. Значения х1, х2, , хm называются вариантами. Одно из самых простых преобразований статистических данных является их упорядочение по значениям (вариантам). Если варианты записаны в возрастающем порядке (проранжированны), то их называют вариационным рядом [4].
Числа n1, n2, , nm называются частотами, сумма частот равна объему выборки, т.е.

Пусть дан вариационный ряд
x1
x2

xm


Модой М0 называется варианта, имеющая наибольшую частоту.
Медианой me является варианта, делящая вариационный ряд на две равные части по количеству вариант, при этом:
если число вариант нечетно, т.е. n = 2к + 1, то
HYPER13 QUOTE HYPER14HYPER15;
если число вариант четно, т.е. n = 2к, то


Среднее (или среднее арифметическое) – это частное от деления суммы всех результатов измерения на объем измерения.
- если варианты x1, x2,,xm имеют частоты n1,n2,,nm, то HYPER13 QUOTE HYPER14HYPER15;
- если все варианты различны (n=m), то HYPER13 QUOTE HYPER14HYPER15
Разность между наибольшим и наименьшим значениями выборки называют размахом выборки HYPER13 QUOTE HYPER14HYPER15.
Отношения HYPER13 QUOTE HYPER14HYPER15 называются относительными частотами (статистическими вероятностями или частностями) соответствующих вариант.
Сумма относительных частот равна единице:

Данные вариационного ряда записывают в виде статистических таблиц:
таблицы распределения частот, в которой в первой строке записывают значения выборки (варианты), а во второй строке – соответствующие частоты:

x1
x2

xm

n1
n2

nm


таблицы распределения относительных частот, в которой в первой строке записываются варианты, а во второй строке – соответствующие относительные частоты:

x1
x2

xm

w1
w2

wm


Решим несколько примеров (условия примеров взяты из пособий [3], [4] и задачника [2]).
Пример 1. Случайная выборка среди абитуриентов на приемных экзаменах дала следующие набранные ими баллы: 13, 12, 14, 11, 11, 12, 14, 10,12, 13, 11, 15, 10, 13, 11, 12, 14, 12, 12, 11. Построить для данной выборки таблицу распределения частот и таблицу распределения относительных частот, определить среднее, моду, медиану и размах выборки.
Решение.
Составим вариационный ряд, для этого расположим данные в возрастающем порядке: 10, 10, 11, 11, 11, 11, 11,12, 12, 12, 12, 12, 12, 13,13,13,14,14,14,15.
Выпишем варианты x1=10, x2=11, x3=12, x4=13, x5=14, x6=15; их частоты равны: n1=2, n2=5, n3=6, n4=3, n5=3, n6=1.
Мода M0=12, так как наибольшая частота, равная 6, соответствует варианте x3=12.
Так как количество вариант четно, то медиана

Размах выборки равен x6-x1=15-10=5.
Объем выборки HYPER13 QUOTE HYPER14HYPER15
Среднее: HYPER13 QUOTE HYPER14HYPER15
Относительные частоты:


Контроль: HYPER13 QUOTE HYPER14HYPER15
Полученные данные сведем в соответствующие таблицы.
Таблица распределения частот:
xi
10
11
12
13
14
15

ni
2
5
6
3
3
1


Таблица распределения относительных частот:
xi
10
11
12
13
14
15

wi
0,1
0,25
0,3
0,15
0,15
0,05



Пример 2. Выборка задана в виде распределения частот

xi
4
7
8
12

ni
5
2
3
10


Построить для данной выборки таблицу распределения относительных частот, определить среднее, моду, медиану и размах выборки.
Решение.
Выпишем варианты x1=4, x2=7, x3=8, x4=12; их частоты равны: n1=5, n2=2, n3=3, n4=10.
Мода M0=12, так как наибольшая частота, равная 10, соответствует варианте x4=12.
Так как количество вариант четно, то медиана

Размах выборки равен x4-x1=12-4=8.
Объем выборки HYPER13 QUOTE HYPER14HYPER15
Среднее: HYPER13 QUOTE HYPER14HYPER15
Относительные частоты:


Контроль: HYPER13 QUOTE HYPER14HYPER15
Полученные данные сведем в таблицу распределения относительных частот.
xi
10
11
12
13
14
15

wi
0,1
0,25
0,3
0,15
0,15
0,05


Пример 3. Ученик выписал из дневника свои отметки за март: 4,4,3,2,5,3,3,4,5,4,4,4,5,4,2,4,4,5,3,3. Построить для данной выборки таблицу распределения частот и таблицу распределения относительных частот, определить среднее, моду, медиану и размах выборки.
Решение.
Составим вариационный ряд, для этого расположим данные в возрастающем порядке:2,2,3,3,3,3,3,4,4,4,4,4,4,4,4,4,5,5,5,5.
Выпишем варианты x1=2, x2=3, x3=4, x4=5; их частоты равны: n1=2, n2=5, n3=9, n4=4.
Мода M0=4, так как наибольшая частота, равная 9, соответствует варианте x3=4.
Так как количество вариант четно, то медиана

Размах выборки равен x4-x1=5-2=3.
Объем выборки HYPER13 QUOTE HYPER14HYPER15
Среднее: HYPER13 QUOTE HYPER14HYPER15
Относительные частоты:

Контроль: HYPER13 QUOTE HYPER14HYPER15
Полученные данные сведем в соответствующие таблицы.
Таблица распределения частот:
xi
2
3
4
5

ni
2
5
9
4


Таблица распределения относительных частот:
xi
2
3
4
5

wi
0,1
0,25
0,45
0,2


Пример 4. В очередном туре футбольного чемпионата состоялись 10 матчей. Вот их результаты: 3:1; 0:2; 1:1; 0:0; 0:4; 0:1; 2:2; 0:3; 1:0; 1:1. Футбольный статистик подсчитал результативность матчей (количество голов). Выписать вариационный ряд, таблицу распределения частот и таблицу распределения относительных частот, определить среднее, моду, медиану и размах выборки.
Решение.
Для начала выпишем несгруппированный ряд данных: 4, 2, 2, 0, 4, 1, 4, 3, 1, 2.
Составим вариационный ряд, для этого расположим данные в возрастающем порядке:0,1,1,2,2,2,3,4,4,4.
Выпишем варианты x1=0, x2=1, x3=2, x4=3, x5=4; их частоты равны: n1=1, n2=2, n3=3, n4=1, n5=3.
Мода M0=2 и 4, так как вариант x3 и x5 имеют одинаковую частоту.
Так как количество вариант четно, то медиана

Размах выборки равен x5-x1=4-0=4.
Объем выборки HYPER13 QUOTE HYPER14HYPER15
Среднее: HYPER13 QUOTE HYPER14HYPER15
Относительные частоты:


Контроль: HYPER13 QUOTE HYPER14HYPER15
Полученные данные сведем в соответствующие таблицы.
Таблица распределения частот:
xi
0
1
2
3
4

ni
1
2
3
1
3


Таблица распределения относительных частот:
xi
0
1
2
3
4

wi
0,1
0,2
0,3
0,1
0,3


В случае, когда число значений признака велико или признак является непрерывным, составляют генеральный статистический ряд. В первую строку таблицы статистического распределения вписывают частичные промежутки (x0,x1), (x1,x2),, (xk-1,xk), которые берут обычно одинаковыми по длине. Для определения величины интервала (h) можно использовать формулу Стерджеса:
HYPER13 QUOTE HYPER14HYPER15,
где R=xmax-xmin – размах выборки, k=1+log2n – число интервалов (HYPER13 QUOTE HYPER14HYPER15).
За начало первого интервала рекомендуется брать величину HYPER13 QUOTE HYPER14HYPER15.
Во второй строке статистического ряда вписывают количество наблюдений ni (i=1,,k), попавших в каждый интервал. Так как граничные значения признака могут совпадать с границами интервалов, то условимся в каждый интервал включать варианты, большие, чем нижняя граница интервала (хi > ai), и меньшие или равные верхней границе (хi
· bi).
Пример 5. Измерили рост 30 наудачу отобранных студентов. Результаты таковы:
178,
· 160,154, 183, 155, 153, 167, 186,163,155,157, 175, 170, 166, 159, 173, 182, 167, 171, 169, 179, 165, 156, 179, 158, 171, 175, 173, 164, 172. Построить интервальный статистический ряд.
Решение:
Проранжируем полученные данные: 153, 154, 155, 155, 156, 157, 158, 159, 160, 163,164, 165, 166, 167, 167, 169, 170, 171,171, 172, 173, 173, 175, 175, 178, 179, 179, 182, 183, 186.
Х – рост студента – непрерывная случайная величина. При более точном измерении роста значения сл.в. Х обычно не повторяются.
Объем выборки равен 30, R=186-153=33- размах выборки.
Найдем длину интервалов: HYPER13 QUOTE HYPER14HYPER15 Примем h=6, тогда xнач=153-6:2=150.
Здесь k=5,907
·6 – количество интервалов.
Исходные данные разбиваем на 6 интервалов: (150; 156), (156;162), (162;168), (168;174), (174;180), (180,186).
Подставив число студентов, попавших в каждый из полученных промежутков, получим интервальный ряд:
Рост
(150; 156)
(156;162)
(162;168)
(168;174)
(174;180)
(180,186)

Частота
5
4
6
7
5
3


Полигон и гистограмма

Более наглядное представление о выборке можно получить графически, построив полигон (для дискретной случайной величины) и гистограмму (для непрерывной случайной величины).
Опр. Полигон – ломанная, соединяющая точки, соответствующие срединным значениям интервалов группировки и частотами этих интервалов. Срединные значения откладываются по оси x, а частоты по оси y.
Опр. Гистограмма – ступенчатая фигура, состоящая из прямоугольников, основаниями которых являются отрезки длиной xi-xi-1, а их высоты равны ni (если ширина всех интервалов группировки одинакова) или HYPER13 QUOTE HYPER14HYPER15 (ni- частота i-го интервала, hi-ширина i-го интервала).
Пример 6. В результате тестирования группа из 24 человек набрала баллы: 4, 0, 3, 4, 1, 0, 3, 1, 0, 4, 0, 0, 3, 1, 0, 1, 1, 3, 2, 3, 1, 2, 1, 2.
Построить полигон и гистограмму.
Решение:
Вариационный ряд: 0,0,0,0,0,0,1,1,1,1,1,1,1,2,2,2,3,3,3,3,3,4,4,4.
Варианты: x1=0, x2=1, x3=2, x4=3, x5=4; их частоты равны: n1=6, n2=7, n3=3, n4=5, n5=3.
Объем выборки n=24.
Размах выборки R=4-0=4.
Число интервалов: HYPER13 QUOTE HYPER14HYPER15.
Длина интервала: HYPER13 QUOTE HYPER14HYPER15
Полигон и гистограмма имеют вид (рис. 1):


Рис.1

Для этого примера построим еще и круговую диаграмму (рис.2). Круговые диаграммы показывают размер элементов в одном ряду данных, пропорционально сумме элементов. Значения данных в круговой диаграмме показываются как доля целого круга.

Рис.2


Пример 7. Рассмотрим глазодвигательную активность по числу попаданий в мишень:
15, 8, 10, 13, 17, 15,15, 19, 22, 15, 14, 17, 15, 13, 12.
Решение:
Вариационный ряд: 8, 10, 12, 13, 13, 14, 15, 15, 15, 15, 15, 17, 17, 19, 22.
Объем выборки равен 15, R=22-8=14- размах выборки.
Найдем длину интервалов: HYPER13 QUOTE HYPER14HYPER15 Примем h=3, тогда xнач=8-3:2=6,5
·7.
Здесь k=4,8
·5 – количество интервалов.
Исходные данные разбиваем на 5 интервалов: (7; 10), (10;13), (13;16), (16;19), (19;22).
Составим интервальный ряд:
Число попаданий
(7; 10)
(10;13)
(13;16)
(16;19)
(19;22)

Частота
2
3
6
3
1

Полигон и гистограмма имеют вид (рис. 3-5):


Рис.3


Рис.4


Рис. 5

Пример 8. Измерения напряжения электросети дали результаты:
210, 198, 215, 212, 194, 213, 199, 191, 205, 211, 189, 206, 204, 205, 201, 194, 190, 200, 202, 196, 200, 216, 214, 200, 196, 210, 206, 200, 215, 204. Построить гистограмму частот.
Решение:
Вариационный ряд: 189, 190, 191, 194, 194, 196, 196, 198, 199, 200, 200, 200, 200, 201, 202, 204, 204, 205, 205, 206, 206, 210, 210, 211, 212, 213, 214, 215, 215, 216.
Объем выборки равен 30, R=216-189=27- размах выборки.
Найдем длину интервалов: HYPER13 QUOTE HYPER14HYPER15 Примем h=5, тогда xнач=189-5:2
·186.
Здесь k=5,8
·6 – количество интервалов.
Исходные данные разбиваем на 6 интервалов: (186; 191), (191;196), (196;201), (201;206), (206;211), (211;216).
Составим интервальный ряд:
Промежутки
(186; 191)
(191;196)
(196;201)
(201;206)
(206;211)
(211;216)

Частота
3
4
7
7
3
6

Гистограмма имеет вид (рис. 6) (гистограмма и полигон (рис. 7)):


Рис.6


Рис.7

Числовые характеристики выборки

Вариационные ряды и графики эмпирических распределений дают наглядное представление о том, как варьирует признак в выборочной совокупности. Но они недостаточны для полной характеристики выборки, поскольку содержат много деталей, охватить которые невозможно без применения обобщающих числовых характеристик.
Числовые характеристики выборки дают количественное представление об эмпирических данных и позволяют сравнивать их между собой. Наибольшее практическое значение имеют характеристики положения, рассеяния и асимметрии эмпирических распределений.
Мы рассмотрим характеристики положения и рассеяния, а также практические методы их вычисления.
Характеристики положения

Характеристики положения определяют положение центра эмпирического распределения. Чаще всего употребляются такие характеристики положения, как среднее арифметическое, медиана и мода (определения даны выше). Иногда их называют мерами центральной тенденции.
Если воспользоваться геометрической интерпретацией, то среднее арифметическое можно определить как точку на оси х, которая является абсциссой центра масс гистограммы.

Характеристики рассеяния

Средние значения не дают полной информации о варьирующем признаке. Нетрудно представить себе два эмпирических распределения, у которых средние одинаковы, но при этом у одного из них значения признака рассеяны в узком диапазоне вокруг среднего, а у другого – в широком. Поэтому наряду со средними значениями вычисляют и характеристики рассеяния выборки. Рассмотрим наиболее употребительные из них: размах выборки, выборочная дисперсия и среднее квадратическое отклонение.
Размах выборки используется иногда в практических исследованиях при малых (не более 10) объемах выборки. Например, по размаху выборки легко оценить, насколько различаются лучший и худший результаты в группе спортсменов. При больших объемах выборки к его использованию надо относиться с осторожностью.
Опр. Дисперсией называется средний квадрат отклонения значений признака от среднего арифметического. Дисперсия, вычисляемая но выборочным данным, называется выборочной дисперсией и обозначается Dв.

Опр. Стандартным отклонением (или средним квадратическим отклонением) называется корень квадратный из дисперсии: HYPER13 QUOTE HYPER14HYPER15
Чем меньше дисперсия или среднее квадратическое отклонение, тем плотнее группируются данные измерения вокруг своего среднего значения.
Пример 9. Приводятся данные о распределении 25 работников одного из предприятий по тарифным разрядам:
4; 2; 4; 6; 5; 6; 4; 1; 3; 1; 2; 5; 2; 6; 3; 1; 2; 3; 4; 5; 4; 6; 2; 3; 4
Найти дисперсию и среднее квадратическое отклонение.
Решение:
В данном примере вариантами является тарифный разряд работника: x1=1, x2=2, x3=3, x4=4, x5=5, x6=6.
Для определения частот необходимо рассчитать число работников, имеющих соответствующий тарифный разряд: n1=3, n2=5, n3=4, n4=6, n5=3, n6=4.
Объем выборки n=25.
Среднее арифметическое значение выборки равно:


5. Вычислим дисперсию:


6. Среднее квадратическое отклонение: HYPER13 QUOTE HYPER14HYPER15

Упражнения
1.На стадионе «Локомотив» была зафиксирована следующая посещаемость первых четырех футбольных матчей: 24 532, 18 711, 22 871, 24 334. Какова была средняя посещаемость (среднее арифметическое) этих матчей? Чему равен размах посещаемости?
2. В течение года Лена получала следующие отметки за контрольные по алгебре: одну «двойку», три «тройки», четыре «четверки», три «пятерки». Найдите среднее арифметическое, моду и медиану этих данных.
3. Маша, Саша, Катя, Лена, Ваня и Миша пошли в пиццерию. Ваня съел 5 кусков пиццы, Миша, Саша, Лена – по 3 куска, Катя – 2 куска, Маша - 1 кусок. 1) найдите все известные вам статистические характеристики этих данных. 2) Если бы Ваня съел не 5, а 7 кусков пиццы, как бы изменились эти величины?
4. На стройку с кирпичного завода привезли 20 упаковок кирпича. Чтобы проверить качество партии, из каждой упаковки вытащили случайным образом по кирпичу и замерили длину каждого. Ниже приведены полученные величины (в см): 20,5; 20,1; 21,3; 20,3; 19,8; 19,2; 20,1; 19,6; 20,2; 20; 20,5; 19,7; 19,9; 20,5; 19,6; 20,1; 19,4; 19,8; 19,1; 20,3.
а) Определите среднюю длину кирпича.
б) Найдите величину среднеквадратичного отклонения длинны кирпича от средней.
5. Пасечник заметил, что пчелы в двух его ульях производят мед не равномерно. Раз в 10 дней он вынимал соты из улья и заносил в таблицу массу (в кг) снятого меда, выработанного пчелами за десять дней.
а) Пчелы какого из ульев работают более стабильно? (Сделайте вывод, вычислив величину среднеквадратичного отклонения количества произведенного меда.)
б) Если в первом улье живет 100 пчел, а во втором 75 пчел, то сколько в среднем произвела каждая пчела меду за период с 19 по 28 августа каждая пчела 1 и 2 улья?
Интервалы времени
Масса меда (в кг)


1-й улей
2-й улей

с 20 по 30 апреля
11,4
11,9

с 1 апреля по 10 мая
12
10,8

с 11 по 20 мая
11,5
13,2

с 21 по 30 мая
11,7
12,6

с 31 мая по 9 июня
11
11,1

с 10 по 19 июня
10,6
11,4

с 20 по 29 июня
13,1
13,2

с 30 июня по 9 июля
12,8
12,9

с 10 по 19 июля
11,9
13,5

с 20 по 29 июля
13
10,9

с 30 июля по 8 августа
12,5
12,3

с 9 по 18 августа
12,9
11,7

с 19 по 28 августа
11,6
12

с 28 августа по 8 сентября
12
10,5



Литература
1. А.Г.Мордкович. Алгебра и начала математического анализа.10-11 классы. В 2ч.Ч.1. Учебник для учащихся общеобразовательных учреждений (базовый уровень)/А.Г.Мордкович.-14-е изд., стер. – М.: Мнемозина, 2013. – 400с.: ил.
2. Алгебра и начала математического анализа.10-11 классы. В 2ч.Ч.2. Задачник для учащихся общеобразовательных учреждений (базовый уровень)/[А.Г.Мордкович и др.]; под ред. А.Г.Мордковича. -14-е изд., стер. – М.: Мнемозина, 2013. – 271с.: ил.
3. Бродский И.Л., Мешавкина О.С. Вероятность и статистика. 10-11 классы. Планирование и практикум: Пособие для учителя. – 104 с.; ил. (Школьное образование)
4. Бычков А.Г. Сборник задач по теории вероятностей, математической статистики и методам оптимизации: учебное пособие. – М: ФОРУМ, 2008. – 224 с.:ил.(Профессиональное образование)










HYPER13 PAGE \* MERGEFORMAT HYPER141HYPER15




Диаграмма 8Диаграмма 2Диаграмма 7 Заголовок 3HYPER15Основной шрифт абзаца

Приложенные файлы

  • doc file8
    Размер файла: 1 MB Загрузок: 5

Добавить комментарий