Презентация на тему: Теоретические основы статистических методов контроля качества

Теоретические основы статистических методов контроля качества ГОСТ Р 50779.10-2000 ГОСУДАРСТВЕННЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ СТАТИСТИЧЕСКИЕ МЕТОДЫ ВЕРОЯТНОСТЬ И ОСНОВЫ СТАТИСТИКИ Термины и определения Термины и определения Термины и определения Теоретические основы статистических методов контроля качества ИЗМЕРИМЫЙ ПРИЗНАК И ЕГО ЭМПИРИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ. Теоретические основы статистических методов контроля качества Теоретические основы статистических методов контроля качества ПРИМЕР 1 Таблица 1. Исходные значения величин в примере (20 измерений диаметра цапф) Теоретические основы статистических методов контроля качества Теоретические основы статистических методов контроля качества Эмпирическое распределение частот Теоретические основы статистических методов контроля качества Теоретические основы статистических методов контроля качества Теоретические основы статистических методов контроля качества СТАТИСТИКИ ЧИСЛОВЫХ ХАРАКТЕРИСТИК ОДНОГО ИЗМЕРИМОГО ПРИЗНАКА СРЕДНИЕ ЗНАЧЕНИЯ Среднее арифметическое ВЫБОРОЧНОЕ СРЕДНЕЕ Теоретические основы статистических методов контроля качества Медиана Теоретические основы статистических методов контроля качества Теоретические основы статистических методов контроля качества Мода D Теоретические основы статистических методов контроля качества Квартили Теоретические основы статистических методов контроля качества Среднее геометрическое Вариация числовых данных МЕРЫ РАССЕИВАНИЯ Размах Межквартильный размах Дисперсия и стандартное отклонение Стандартное выборочное отклонение ВЫЧИСЛЕНИЕ ПОКАЗАТЕЛЕЙ S 2 И S Дисперсия и стандартное отклонение Коэффициент вариации Форма распределения Форма распределения ВЫЧИСЛЕНИЕ ОПИСАТЕЛЬНЫХ СТАТИСТИК ДЛЯ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ Теоретические основы статистических методов контроля качества Эмпирическое правило Правило Бьенамэ-Чебышева Сколько данных лежит вокруг математического ожидания АНАЛИЗ ДАННЫХ Теоретические основы статистических методов контроля качества КОВАРИАЦИЯ И КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ Три вида корреляции между двумя переменными Выборочный коэффициент корреляции Выборочный коэффициент корреляции Теоретические основы статистических методов контроля качества Выборочный коэффициент корреляции Выборочный коэффициент корреляции ВЫЧИСЛЕНИЕ КОЛИЧЕСТВЕННЫХ ПОКАЗАТЕЛЕЙ НА ОСНОВЕ РАСПРЕДЕЛЕНИЯ ЧАСТОТ ВЫЧИСЛЕНИЕ КОЛИЧЕСТВЕННЫХ ПОКАЗАТЕЛЕЙ НА ОСНОВЕ РАСПРЕДЕЛЕНИЯ ЧАСТОТ Этические проблемы Спасибо за внимание!
1/58
Средняя оценка: 4.7/5 (всего оценок: 35)
Скачать (1007 Кб)
Код скопирован в буфер обмена
1

Первый слайд презентации: Теоретические основы статистических методов контроля качества

Описательная статистика

2

Слайд 2: ГОСТ Р 50779.10-2000 ГОСУДАРСТВЕННЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ СТАТИСТИЧЕСКИЕ МЕТОДЫ ВЕРОЯТНОСТЬ И ОСНОВЫ СТАТИСТИКИ Термины и определения

единица [объект] То, что можно рассмотреть и описать индивидуально. Примечание - Единицей может, например, быть: - изделие; - определенное количество материала; - услуга, действие или процесс; - организация или человек; некоторая их комбинация признак Свойство, которое помогает идентифицировать или различать единицы данной генеральной совокупности. Примечание - Признак может быть количественным или качественным ( альтернативным ) ( генеральная) совокупность Множество всех рассматриваемых единиц. Примечание - Для случайной величины распределение вероятностей рассматривают как определение совокупности этой случайной величины подсовокупность Определенная часть генеральной совокупности

3

Слайд 3: Термины и определения

класс a) Для качественного признака - Определенные группы объектов, каждые из кото- рых имеют отдельные общие признаки, взаимно исключают друг друга, исчерпывая все объекты. b) Для количественного признака - Каждый из последовательных взаимоисклю -чающих интервалов, на которые разделен весь интервал варьирования границы класса; пределы класса Значения, определяющие верхнюю и нижнюю границы класса. Примечания 1 Следует уточнить, какую из двух границ считают принадлежащей классу. 2 Если возможно, надо чтобы граница класса не совпадала с возможным значением середина класса Среднее арифметическое верхней и нижней границ класса для количественного признака интервал класса Разница между верхней и нижней границами класса для количественного признака

4

Слайд 4: Термины и определения

частота Число наступлений события данного типа или число наблюдений, попавших в данный класс накопленная кумулятивная частота Число наблюдений из множества, имеющих значения, которые меньше заданного значения или равны ему. Примечание - Для данных, объединенных в классы, кумулятивную частоту можно указать только в границах класса относительная частота Частота, деленная на общее число событий или наблюдений распределение частот Эмпирическое отношение между значениями признака и его частотами или его относительными частотами. Примечание - Это распределение можно представить графически в виде гистограммы, столбиковой диаграммы, полигона кумулятивных частот или как таблицу сопряженности двух признаков гистограмма Графическое представление распределения частот для количественного признака, образуемое соприкасающимися прямоугольниками, основаниями которых служат интервалы классов, а площади пропорциональны частотам этих классов столбиковая диаграмма Графическое представление распределения частот для дискретной случайной величины, образуемое набором столбцов равной ширины, высоты которых пропорциональны частотам полигон кумулятивных частот Ломаная линия, получаемая при соединении точек, абсциссы которых равны верхним границам классов, а ординаты - либо кумулятивным абсолютным частотам, либо кумулятивным относительным частотам

5

Слайд 5

выборка [проба] Одна или несколько выборочных единиц, взятых из генеральной совокупности и предназначенных для получения информации о ней. Примечание - Выборка [проба] может служить основой для принятия решения о генеральной совокупности или о процессе, который ее формирует объем выборки Число выборочных единиц в выборке отбор выборки Процесс извлечения или составления выборки

6

Слайд 6: ИЗМЕРИМЫЙ ПРИЗНАК И ЕГО ЭМПИРИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ.

ИСХОДНЫЕ НАБЛЮДЕНИЯ. ТАБЛИЦА ЧАСТОТ. ЭМПИРИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ

7

Слайд 7

Основу статистического исследования составляет множество данных, полученных по результатам измерения одного или нескольких признаков. Путем вычисления или измерения признаков соответствующими измерительными средствами получают ряд значений, называемый также рядом измерений. Ряд измерений может состоять, например, из значений результатов измерений диаметра валов привода, температуры прокатки и плавки подшипниковой стали или значений количества телефонных вызовов, регистрируемых за определенный промежуток времени, например в 1 мин. Исследуемыми измеримыми признаками являются здесь соответственно диаметр, температура прокатки или плавки или число вызовов за определенный промежуток времени. Эти признаки соответствуют определению случайных величин. Обозначим их заглавными латинскими буквами X, Y, Z,.... Область их значений охватывает все возможные значения, которые может принимать признак или случайная величина.

8

Слайд 8

Ряд измерений объема n состоит из n значений признака, которые обозначаются соответствующими малыми латинскими буквами, снабженными индексом, указывающим порядковый номер измерения; х1, х2,..., х n представляют собой значения, которые X принимает в каждом конкретном случае. Наблюдаемые значения х1, х2..., х n называются реализациями случайной величины X. Речь идет о непрерывной случайной величине, если она принимает все возможные значения в определенном интервале, например, при определении диаметра валов привода или при измерении температуры плавки или проката подшипниковой стали. Количество телефонных вызовов представляет собой дискретную случайную величину, так как она может принимать лишь целочисленные значения 0, 1, 2,....

9

Слайд 9: ПРИМЕР 1

У 20 изготовленных на токарном автомате цапф передней оси контролировался диаметр; в результате были получены значения положительных отклонений вмк (микронах) от номинального размера 20 мм, приведенные в таблице 1. Признак или случайная величина X есть диаметр цапф, который теоретически (с ограничениями, налагаемыми имеющейся точностью измерений) может принимать любые значения в интервале, величина которого определяется заданной технологией станка и материала, т. е. X есть непрерывная величина. Объем ряда измерений составляет n = 20. Реализациих1, x 2,...,х20 случайной величины X образуют последовательность, представленную в таблице 1. Такая последовательность называется исходной. Она содержит неупорядоченные отклонения от номинального размера между 39 и 46мк.

10

Слайд 10: Таблица 1. Исходные значения величин в примере (20 измерений диаметра цапф)

отклонения от номинального размера 42 40 42 42 46 43 42 41 41 40 41 43 39 41 40 39 42 44 42 40

11

Слайд 11

Если упорядочить измерения по величине и указать вертикальными черточками их повторяемость, получится первичная таблица распределения (табл. 2). В столбец (1) таблицы заносятся в порядке возрастания результаты измерений, в столбец (2) — штриховые отметки повторяемости данного измеренного значения, в столбец (3) — их количество, т. е. абсолютная частота каждого результата измерения. Таблица 2. Первичная таблица распределения Отклонение от номинального размера, мк Штриховые отметки отклонения Абсолютная частота 1 2 3 39 40 41 42 43 44 45 46 II IIII IIII IIII I II I - I 2 4 4 6 2 1 0 1 Первичная таблица распределения показывает, что большинство измерений, а именно 14 из 20, лежит между 40 и 42мк, в то время как вне этого интервала располагается относительно мало величин.

12

Слайд 12

Границы интервала, мк Штриховые отметки Абсолютная частота Относительная частота, % Относительная накопленная частота, ∑, % 1 2 3 4 5 24,5 … 27,5 27,5 … 30,5 30,5 … 33,5 33,5 … 36,5 36,5 … 39,5 39,5 … 42,5 42,5 … 45,5 45,5 … 48,5 48,5 … 51,5 51,5 … 54,5 I IIII IIII IIII III IIII IIII IIII IIII III IIII IIII IIII IIII II IIII IIII IIII IIII IIII IIII IIII IIII IIII IIII IIII IIII IIII IIII IIII I IIII IIII I II 1 4 13 23 22 29 29 16 11 2 0, 67 2, 67 8,67 15,33 14,67 19,33 19,33 10,67 7,33 1,33 0,67 3,34 12,01 27,34 42,01 61,34 80,67 91,34 98,67 100,00 Пример 2 Объем ряда измерений составляет n = 150. Имеют место отклонения от 25 до 52мк. Обозначим наименьшее измеренное значение в исходной последовательности через x мин ( x мин = 25мк), а наибольшее измеренное значение — через x макс (хмакс= 52мк). Разность между этими величинами называется размахом R : R = х макс - х мин = 52-25 = 27 мк. при большом объеме n измерений первичная таблица распределения по-прежнему остается слишком обширной. Поэтому следует прибегнуть к классификации (группировке;) измерений, объединяя по нескольку следующих друг за другом значений в класс, или группу.

13

Слайд 13: Эмпирическое распределение частот

Первое указание на вид распределения частот нам дают штриховые отметки таблицы частот. Количество штрихов в отдельных интервалах дает наглядную картину эмпирического распределения случайной величины X. На практике, например в технике контрольных карт, этого оказывается вполне достаточно для оценки распределения. Если для примера 1 в прямоугольных координатах отложить по оси абсцисс границы интервала из табл.: 24,5... 27,5мк; 27,5... 30,5мк; а по оси ординат — соответствующие абсолютные или же относительные частоты и построить для каждого интервала прямоугольник шириной d = 3мк и высотой hm или ( hm / n )*100% (после выбора соответствующего масштаба на осях координат), то получится ступенчатый многоугольник, называемый также гистограммой. Совокупность штриховых отметок по существу представляет собой такую гистограмму, повернутую на 90°.

14

Слайд 14

Другое представление получается, если в серединах интервалов на оси абсцисс — обозначим их через n т (т = 1, 2,..., k ) — восстановить перпендикуляры высотой hm или ( hm / n )*100% и соединить между собой их вершины. В результате получаем полигон частот, или многоугольник распределения (эмпирическую кривую распределения). При увеличении ширины интервала d полигон частот все более сглаживается, в результате чего ранее имевшиеся вершины могут исчезнуть. При этом возникает опасность существенного смазывания картины эмпирического распределения, так что уже по этой одной причине значения d не следовало бы выбирать слишком большими.

15

Слайд 15

Полигоны частот к примеру 2 (d = 3 мк)

16

Слайд 16

Наряду с этим имеется множество методов графического представления распределений частот (7 простых японских методов).

17

Слайд 17: СТАТИСТИКИ ЧИСЛОВЫХ ХАРАКТЕРИСТИК ОДНОГО ИЗМЕРИМОГО ПРИЗНАКА

18

Слайд 18: СРЕДНИЕ ЗНАЧЕНИЯ

В качестве характеристик измеримого признака вместо исходных значений величин или таблицы их частот используются числовые характеристики, называемые также статистическими мерами, которые служат для описания и сравнения распределений. Важнейшей и чаще всего применяемой на практике статистической характеристикой является среднее значение, описывающее одним числом результаты некоторого ряда измерений. Для статистических исследований в технике особый интерес представляют следующие средние значения: среднее арифметическое, медиана, или срединное значение, мода D и среднее геометрическое.

19

Слайд 19: Среднее арифметическое

Наиболее известно среднее арифметическое ряда измерений. В повседневной жизни нам приходится часто сталкиваться с такими средними значениями. Так, например, на предприятии рассчитывается среднемесячная доля брака, средний расход сырья в цехе или среднесуточная производительность агрегата; при метеорологических исследованиях вычисляют среднегодовую температуру или среднесуточную влажность воздуха. Точно так же, как вычисляют эти средние значения (суммирование индивидуальных значений и деление суммы на количество величин), определяют и среднее арифметическое ряда измерений объема п со значениями x 1х2,...,х n Среднее арифметическое ряда измерений определяется по формуле

20

Слайд 20: ВЫБОРОЧНОЕ СРЕДНЕЕ

Для выборки, состоящей из чисел Х„ Х г, Х п, выборочное среднее (обозначаемое символом X ) равно

21

Слайд 21

Поскольку среднее арифметическое зависит от всех элементов выборки, наличие экстремальных значений значительно влияет на результат. В таких ситуациях среднее арифметическое может исказить смысл числовых данных. Следовательно, описывая набор данных, содержащий экстремальные значения, необходимо указывать медиану либо среднее арифметическое и медиану

22

Слайд 22: Медиана

Важной числовой характеристикой распределения для ряда измерений объема n является медиана, или срединное значение. Для ее вычисления все наблюдения необходимо расположить в порядке возрастания или убывания результатов измерений. Если n — нечетное число, то медиана просто является числом, находящимся в середине упорядоченной последовательности. При четном n медиана равна среднему арифметическому двух расположенных в середине значений упорядоченной последовательности. По определению медиана зависит исключительно от одного или двух срединных значений ряда измерений. Остальные значения последовательности можно поэтому произвольно варьировать, не изменяя при этом медиану, в то время как среднее арифметическое может существенно измениться. Особенно легко найти медиану малого количества измерений. В связи с этим медиана используется главным образом для построения контрольных карт, где ей отдается предпочтение перед средним арифметическим, так как там обычно оперируют с выборками измерений из 5 или 7 значений, откуда легко найти как срединное значение (3-е или 4-е) и занести его на контрольную карту, в то время как при использовании среднего арифметического нужно произвести ряд вычислений (сложить измерения и разделить сумму на их количество).

23

Слайд 23

ПРИМЕР Чтобы вычислить медиану выборки, сначала необходимо упорядочить исходные данные. В соответствии с правилом, относящимся к выборкам, содержащим нечетное количество элементов, позиция медианы вычисляется по формуле Таким образом, медиана равна 6,5. Обратите внимание на то, что медиана, равная 6,5, ненамного больше среднего значения, равного 6,08.

24

Слайд 24

ПРИМЕР Упорядоченный массив теперь выглядит так. Согласно правилу, относящемуся к вычислению медианы выборки, содержащей четное количество элементов, позиция медианы задается формулой Следовательно, медиана равна среднему значению, вычисленному по третьему и чет­вертому элементам, т.е. 12,2.

25

Слайд 25: Мода D

Мода D (наиболее вероятное значение) есть наиболее часто встречающаяся в данном ряде измерений величина. Если измерения образованы реализациями дискретной случайной величины X то D можно установить непосредственно по таблице частот как значение признака, имеющее максимальную абсолютную частоту. Если же измерения являются реализациями непрерывной случайной величины Х, то моду D определяют при наличии первичной таблицы распределения как значение с максимальной абсолютной частотой или (при отсутствии такой таблицы) приближенно по таблице частот. Если имеется только таблица частот, т. е. сгруппированный материал, то можно определить лишь интервал, в который попадает мода D. Это будет интервал с наибольшей абсолютной частотой hm. При графическом представлении эмпирического распределения в виде полигона частот D равно значению измеримого признака, которому соответствует максимум ординаты полигона. Многовершинные распределения частот (с несколькими максимумами) обладают несколькими модами, поэтому для их характеристики удобнее избрать моду D, а не среднее арифметическое, так как она лучше отражает типичные черты распределения, чем среднее значение или медиана. На практике мода чаще всего применяется в демографической статистике, при решении же технических задач она еще не нашла широкого применения.

26

Слайд 26

ПРИМЕР Системный администратор, руководящий работой корпоративной сети, подсчитыва­ет количество сбоев сервера, происходящих за день. В следующей таблице приведены данные его наблюдений за последние две недели. Вычислите моду этой выборки. РЕШЕНИЕ. Упорядочим массив. Чаще всего в этой выборке повторяется число 3. Следовательно, мода равна 3. Таким образом, системный администратор может утверждать, что, как правило, сервер сбо­ит 3 раза в день. Обратите внимание на то, что мода этой выборки равна 3, а среднее выборочное значение равно 4,5. Число 26 является выбросом, поэтому для оценки среднего количества сбоев за день следует пользоваться медианой или модой, а не средним арифметическим значением.

27

Слайд 27: Квартили

Квартили ( quartiles ) — это показатели, которые чаще всего используются для оцен­ки распределения данных при описании свойств больших числовых выборок. В то вре­мя как медиана разделяет упорядоченный массив пополам (50% элементов массива меньше медианы и 50% — больше), квартили разбивают упорядоченный набор данных на четыре части. Квартили вычисляются по формулам Первый квартиль Q 1 — это число, разделяющее выборку на две части: 25% элементов меньше, а 75% — больше первого квартиля. Третий квартиль Q 3 — это число, разделяющее выборку на две части: 75% элементов меньше, а 25% — больше третьего квартиля.

28

Слайд 28

ПРИМЕР Вычислим квартили выборки. Упорядоченный массив имеет следующий вид. Это означает, что 25% значений СВ не превы­шает -0,7%.

29

Слайд 29: Среднее геометрическое

В отличие от среднего арифметического среднее геометрическое позволяет оценить степень изменения переменной с течением времени. Среднее геометрическое ряда измерений объема n с членами х1, х2, …, xn определяется формулой Значение вычисляют, логарифмируя при произвольном основании В определении среднего геометрического предполагают, что xi >0 для любых членов.

30

Слайд 30: Вариация числовых данных

Важное свойство числовых данных — их вариация, характеризующая сте­пень дисперсии ( dispersion ) данных. Две разные выборки могут отличаться как сред­ними значениями, так и вариациями. Однако, как показано, две вы­борки могут иметь одинаковые вариации, но разные средние значения, либо одинако­вые средние значения и совершенно разные вариации. Два симметричных распределения колоколообразной формы с одинаковым разбросом и разными средними значениями Два симметричных распределения колоколообразной формы с одинаковыми средними значениями и разным разбросом

31

Слайд 31: МЕРЫ РАССЕИВАНИЯ

Для описания эмпирических распределений недостаточно введения единственного числа, характеризующего ряд измерений через их среднее значение, так как два эмпирических распределения с одинаковыми средними могут иметь совершенно разный вид. Существует пять оценок вариации данных: размах, межквартилъный раз­мах, дисперсия, стандартное отклонение и коэффициент вариации. Размах R Размахом ( range ) называется разность между наибольшим и наименьшим элемента­ми выборки

32

Слайд 32: Размах

Размах позволяет измерить общий разброс ( total spread ) данных. Хотя размах вы­борки является весьма простой оценкой общего разброса данных, его слабость заключа­ется в том, что он никак не учитывает, как именно распределены данные между мини­мальным и максимальным элементами. Сравнение трех выборок, имеющих одинаковый размах

33

Слайд 33: Межквартильный размах

Межквартильный, или средний, размах — это разность между третьим и первым квартилями выборки. Эта величина позволяет оценить разброс 50% элементов и не учитывать влияние экстремальных элементов. Следует отметить, что величины Q 1 и Q 3, а значит, и межквартильный размах, не зависят от наличия выбросов, поскольку при их вычислении не учитывается ни одна величина, ко­торая была бы меньше Q 1, или больше Q 3. Суммарные количественные характеристики, та­кие как медиана, первый и третий квартили, а также межквартильный размах, на которые не влияют выбросы, называются устойчивыми показателями.

34

Слайд 34: Дисперсия и стандартное отклонение

Хотя размах и межквартильный размах позволяют оценить общий и средний раз­брос выборки соответственно, ни одна из этих оценок не учитывает, как именно распре­делены данные. Дисперсия и стандартное отклонение лишены этого недостатка. Эти показатели позволяют оценить степень колебания данных вокруг среднего значения. Выборочная дисперсия — это сумма квадратов разностей между элементами выбор­ки и выборочным средним, деленная на величину, равную объему выборки минус один.

35

Слайд 35: Стандартное выборочное отклонение

Наиболее практичной и широко распространенной оценкой разброса данных явля­ется стандартное выборочное отклонение ( sample standard deviation ). Этот показатель обозначается символом S и равен квадратному корню из выборочной дисперсии. Стандартное выборочное отклонение — квадратный корень из суммы квадратов раз­ностей между элементами выборки и выборочным средним, деленной на величину, равную объему выборки минус один.

36

Слайд 36: ВЫЧИСЛЕНИЕ ПОКАЗАТЕЛЕЙ S 2 И S

Чтобы вычислить выборочную дисперсию, следует выполнись следующее. Вычислить разность между каждым элементом выборки и выборочным средним. Возвести каждую разность в квадрат. Сложить все разности, возведенные в квадрат. Поделить результат на п-1. Чтобы вычислить показатель S, т.е. стандартное выборочное отклонение, необходимо извлечь квадратный корень из выборочной дисперсии. Ни выборочная дисперсия, ни стандарт­ное выборочное отклонение не могут быть отрицательными. Показатели S 2 и S могут быть нулевыми, — если все элементы выборки равны между собой. В этом случае размах и межквартильный размах также равны нулю.

37

Слайд 37: Дисперсия и стандартное отклонение

позволяют оценить разброс данных вокруг среднего значения, определить, сколько элементов выборки меньше среднего, а сколько — больше. Величина дисперсии представляет собой квадрат единицы измерения. Оценкой дисперсии является стандартное отклонение, которое выражается в обычных единицах измерений. Стандартное отклонение позволяет оценить величину колебаний элементов выборки вокруг среднего значения. Практически во всех ситуациях основное количество наблюдаемых величин лежит в интервале плюс-минус одно стандартное отклонение от среднего значения. Зная среднее арифметическое элементов выборки и стандартное выборочное отклонение, можно определить интервал, которому принадлежит основная масса данных. Дисперсия и стандартное отклонение

38

Слайд 38: Коэффициент вариации

39

Слайд 39: Форма распределения

Важное свойство выборки — форма ее распределения. Распределение мо­жет быть симметричным или асимметричным. Чтобы описать форму распределения, необходимо вычислить его среднее значение и медиану. Если эти два показателя совпадают, переменная считается симметрично распределено. Если среднее значение переменной больше медианы, ее распределение имеет положительную асимметрию. Если медиана боль­ше среднего значения, распределение переменной имеет отрицательную асимметрию. Положительная асимметрия возникает, когда среднее значение увеличивается до необычайно высоких значений. Отрицательная асимметрия возникает, когда среднее значение уменьшается до необычайно малых значений. Переменная является симмет­рично распределенной, если она не принимает никаких экстремальных значений ни в одном из направлений, так что большие и малые значения переменной уравновеши­вают друг друга

40

Слайд 40: Форма распределения

Данные, изображенные на панели А, имеют отрицательную асимметрию. На этом рисунке виден длинный хвост и перекос влево, вызванные наличием необычно малых значений. Эти крайне малые величины смещают среднее значение влево, и оно стано­вится меньше медианы. Данные, изображенные на панели Б, распределены симметрично. Левая и правая по­ловины распределения являются своими зеркальными отражениями. Большие и малые величины уравновешивают друг друга, а среднее значение и медиана равны между собой. Данные, изображенные на панели В, имеют положительную асимметрию. На этом рисунке виден длинный хвост и перекос вправо, вызванные наличием необычайно вы­соких значений. Эти слишком большие величины смещают среднее значение вправо, и оно становится больше медианы. Форма распределения

41

Слайд 41: ВЫЧИСЛЕНИЕ ОПИСАТЕЛЬНЫХ СТАТИСТИК ДЛЯ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ

42

Слайд 42

Математическое ожидание равно сумме всех значений генеральной совокупности, деленной на объем генеральной совокупности N. Дисперсия генеральной совокупности равна сумме квадратов разностей между эле­ментами генеральной совокупности и математическим ожиданием, деленной на объ­ем генеральной совокупности. Стандартное отклонение генеральной совокупности ( population standard deviation ) равно квадратному корню, извлеченному из дисперсии генеральной совокупности.

43

Слайд 43: Эмпирическое правило

Эмпирическое правило гласит: если данные имеют колоколообразное распределение, то приблизительно 68% наблюдений отстоят от математического ожидания не более чем на одно стандартное отклонение, приблизительно 95% наблюдений отстоят от математического ожидания не более чем на два стандартных отклонения и 99% на­блюдений отстоят от математического ожидания не более чем на три стандартных отклонения.

44

Слайд 44: Правило Бьенамэ-Чебышева

Более ста лет назад математики Бьенамэ и Чебышев независимо друг от друга откры­ли полезное свойство стандартного отклонения. Они обнаружили, что для любого набора данных, независимо от формы распределения, процент наблюдений, лежащих на расстоя­нии не превышающем k стандартных отклонений от математического ожидания, не меньше Правило Бьенамэ-Чебышева. По крайней мере 3/4, или 75%, всех наблюдений из любого набора данных содержится в интервале µ±2 σ, по крайней мере 8/9, или 88,89%, наблюдений содержится в интервале µ±3 σ, и как минимум 15/16, или 93,75%, наблюдений содержится в интервале µ±4 σ.

45

Слайд 45: Сколько данных лежит вокруг математического ожидания

Правило Бьенамэ-Чебышева носит весьма общий характер и справедливо для рас­пределений любого вида. Оно указывает минимальное количество наблюдений, рас­стояние от которых до математического ожидания не превышает заданной величины. Однако, если распределение имеет колоколообразную форму, эмпирическое правило более точно оценивает концентрацию данных вокруг математического ожидания.

46

Слайд 46: АНАЛИЗ ДАННЫХ

Основные характеристики (среднее значение, разброс и форма распределения) по­зволяют описать свойства данных и перейти к более глубоким исследованиям. Доволь­но часто для анализа данных применяется подход, основанный на пятерке базовых по­казателей Если данные распределены совершенно симметрично, между пятью базовыми показа­телями наблюдаются зависимости: Расстояние от Х min до медианы равно расстоянию от медианы до Х max. Расстояние от Х min до Q 1 равно расстоянию от Q 3 до Х тах Расстояние от Q 1 до медианы равно расстоянию от медианы до Q 3.

47

Слайд 47

Зависимости, которые возникают между элементами пятерки показателей, когда данные распределены несимметрично Если распределение имеет положительную асимметрию, расстояние от от Х min до медианы меньше расстояния от медианы до Х max. Если распределение имеет положительную асимметрию, расстояние от Q 3 до Х тах больше чем от X min до Q 1 Если распределение имеет отрицательную асимметрию, расстояние от X min до ме­дианы больше расстояния от медианы до Х max. Если распределение имеет отрицательную асимметрию, расстояние от Q 3 до Х max меньше, чем от Х min до Q 1

48

Слайд 48: КОВАРИАЦИЯ И КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ

Ковариация оценивает силу линейной зависимости между двумя чи­словыми переменными X и У. Ковариация не позволяет оценить относительную силу зависимости. Для того чтобы точнее оценить эту величину, необходимо вычислить коэффициент корре­ляции. Относительная сила зависимости, или связи, между двумя переменными, образую­щими двумерную выборку, измеряется коэффициентом корреляции, изменяющимся от -1 для идеальной обратной зависимости до +1 для иде­альной прямой зависимости. Коэффициент корреляции обозначается греческой буквой р. Линейность корреляции ( perfect correlation ) означает, что все точки, изображенные на диаграмме разброса, лежат на прямой.

49

Слайд 49: Три вида корреляции между двумя переменными

На рисунке А, изображена обратная линейная зависимость между пере­менными X и У. Таким образом, коэффициент корреляции р равен -1, т.е., когда пере­менная X возрастает, переменная У убывает. На рисунке Б показана ситуация, в которой между переменными X и У нет корреляции. В этом случае коэффициент корреляции р равен 0, и, когда переменная X возрастает, переменная У не проявляет никакой опреде­ленной тенденции: она ни убывает, ни возрастает. На рисунке В изображена линейная прямая зависимость между переменными X и У. Таким образом, коэффициент корре­ляции р равен +1, и, когда переменная X возрастает, переменная У также возрастает.

50

Слайд 50: Выборочный коэффициент корреляции

При анализе выборок, содержащих двумерные данные, вычисляется выборочный коэффициент корреляции, который обозначается буквой г. В реальных ситуациях ко­эффициент корреляции редко принимает точные значения -1, 0 и +1. На рисунке при­ведены шесть диаграмм разброса и соответствующие коэффициенты корреляции г ме­жду 100 значениями переменных X и У. На рисунке А показана ситуация, в которой выборочный коэффициент корреляции г равен -0,9. Прослеживается четко выраженная тенденция: небольшим значениям пе­ременной X соответствуют очень большие значения переменной У, и, наоборот, боль­шим значениям переменной X соответствуют малые значения переменной У. Однако данные не лежат на одной прямой, поэтому зависимость между ними нельзя назвать линейной. На рисунке Б приведены данные, выборочный коэффициент корреляции между которыми равен -0,6. Небольшим значениям переменной X соответствуют большие значения переменной У. Обратите внимание на то, что зависимость между пе­ременными X и У нельзя назвать линейной, как на рисунке А, и корреляция между ними уже не так велика.

51

Слайд 51: Выборочный коэффициент корреляции

Коэффициент корреляции между переменными X и У, изо­браженными на рисунке В, равен -0,3. Прослеживается слабая тенденция, согласно ко­торой большим значениям переменной У, в основном, соответствуют малые значения переменной У. Рисунки Г-Е иллюстрируют положительную корреляцию между данны­ми — малым значениям переменной X соответствуют большие значения переменной У. Мы употребляли термин тенденция, поскольку между перемен­ными X и У нет причинно-следственных связей. Наличие корреляции не означает нали­чия причинно-следственных связей между переменными X и У, т.е. изменение значения одной из переменных не обязательно приводит к изменению значения другой. Сильная корреляция может быть случайной и объясняться третьей переменной, оставшейся за рамками анализа. В таких ситуациях необходимо проводить дополнительное исследова­ние. Таким образом, можно утверждать, что причинно-следственные связи порождают корреляцию, но корреляция не означает наличия причинно-следственных связей.

52

Слайд 52

Диаграммы разброса и соответствующие коэффициенты корреляции г ме­жду 100 значениями переменных X и У

53

Слайд 53: Выборочный коэффициент корреляции

r вычисляется в соответствии с формулой Выборочный коэффициент корреляции

54

Слайд 54: Выборочный коэффициент корреляции

Коэффициент корреляции свидетельствует о линейной зависимости, или свя­зи, между двумя переменными. Чем ближе коэффициент корреляции к -1 или +1, тем сильнее линейная зависимость между двумя переменными. Знак коэффициента корре­ляции определяет характер зависимости: прямая (чем больше значение переменной X, тем больше значение переменной У) и обратная (чем больше значение переменной X, тем меньше значение переменной У). Сильная корреляция не является причинно-следственной зависимостью. Она лишь свидетельствует о наличии тенденции, харак­терной для данной выборки. Выборочный коэффициент корреляции

55

Слайд 55: ВЫЧИСЛЕНИЕ КОЛИЧЕСТВЕННЫХ ПОКАЗАТЕЛЕЙ НА ОСНОВЕ РАСПРЕДЕЛЕНИЯ ЧАСТОТ

56

Слайд 56: ВЫЧИСЛЕНИЕ КОЛИЧЕСТВЕННЫХ ПОКАЗАТЕЛЕЙ НА ОСНОВЕ РАСПРЕДЕЛЕНИЯ ЧАСТОТ

57

Слайд 57: Этические проблемы

Исследователя подстерегают две ошибки: неверно выбранный предмет анализа и неправильная интерпретация результатов. Интерпретация данных является субъективным процессом. Разные люди приходят к разным выводам, истолковывая одни и те же результаты. Следует критично относиться к информации, не только к результатам, но и к целям, предмету и объективности исследований. Британский политик Бенджамин Дизраэли: «Существует три вида лжи: ложь, наглая ложь и статистика».

58

Последний слайд презентации: Теоретические основы статистических методов контроля качества: Спасибо за внимание!

Похожие презентации

Ничего не найдено