Презентация на тему: Основные понятия. Описательная статистика. Занятие 1

Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
Основные понятия. Описательная статистика. Занятие 1
1/44
Средняя оценка: 4.7/5 (всего оценок: 42)
Код скопирован в буфер обмена
Скачать (1257 Кб)
1

Первый слайд презентации

Основные понятия. Описательная статистика. Занятие 1

Изображение слайда
2

Слайд 2

Данные – результаты некоторого количества измерений какой-либо ПЕРЕМЕННОЙ (переменных) – variable, такой, как: вес, длина тела, пол, окрас, температура тела..... наблюдение выборка популяция = генеральная совокупность Важнейший вопрос: что мы можем сказать обо всей ПОПУЛЯЦИИ, если всё, что у нас есть, это лишь ВЫБОРКА из неё?

Изображение слайда
3

Слайд 3

ПЕРЕМЕННЫЕ Количественные Ранговые ordinal ( качественные, могут быть выстроены в последовательность ) Качественные nominal Дискретные discrete Непрерывные continuous

Изображение слайда
4

Слайд 4

Непрерывные переменные: рост, вес Ани, Тани и Мани Не нужно писать много знаков после запятой (ориентируются на точность измерений). Если почему-то необходимо округлить числа, чётные округляют в меньшую сторону, нечётные – в большую (2.5 в 2, 3.5 в 4);

Изображение слайда
5

Слайд 5

Три основные концепции в анализе данных: Что такое РАСПРЕДЕЛЕНИЕ переменной и как его описывать Что такое распределение ВЫБОРОЧНЫХ СРЕДНИХ и как оно связано с распределением переменной Что такое СТАТИСТИКА КРИТЕРИЯ Необходимо для обдумывания и обсуждения данных

Изображение слайда
6

Слайд 6

Частотное распределение переменной ( frequency distribution ) На примере непрерывной переменной Взвешиваем N кроликов

Изображение слайда
7

Слайд 7

Частотное распределение переменной ( frequency distribution ) Упорядочим по возрастанию значения переменной ( выстроим кроликов от меньшего к большему ); Напротив значений напишем, сколько раз они встретились в выборке (для непрерывной переменной разобьём их на группы по равным интервалам). Частотное распределение ( frequency distribution ) – это соответствие между значениями нашей переменной и их вероятностями

Изображение слайда
8

Слайд 8

Масса кролика, кг Частота Гистограмма – графическое представление частотного распределения, разбитого по интервалам, где высота столбика отражает ЧАСТОТУ Частотное распределение переменной ( frequency distribution ) Частота – то, сколько раз встретилось данное значение переменной Интервалы должны быть: одного размера, не должны иметь общих точек.

Изображение слайда
9

Слайд 9

Частотное распределение переменной ( frequency distribution ) Как описать непрерывное распределение? По количеству «максимумов» (мод): унимодальное бимодальное мультимодальное обычно возникают, если популяция имеет естественные обособленные подгруппы

Изображение слайда
10

Слайд 10

Частотное распределение переменной ( frequency distribution ) По признаку симметрии: Симметричное Скошенное ( skewed ) positively negatively Как описать непрерывное распределение?

Изображение слайда
11

Слайд 11

Частотное распределение переменной ( frequency distribution ) 3. распределение асимптотическое не асимптотическое Как описать непрерывное распределение?

Изображение слайда
12

Слайд 12

Частотное распределение переменной ( frequency distribution ) Нормальное распределение (Гауссово) : первое знакомство Унимодальное Симметричное Асимптотическое Высота деревьев, масса тела новорожденных, IQ, скорость прохождения лабиринта крысами и многие, многие другие переменные Это непрерывное распределение

Изображение слайда
13

Слайд 13

Частотное распределение переменной ( frequency distribution ) Картинка распределения качественных или ранговых переменных трава листва корни плоды Виды пищи Оставим на некоторое время качественные и ранговые переменные и обратимся только к КОЛИЧЕСТВЕННЫМ

Изображение слайда
14

Слайд 14

Частотное распределение переменной ( frequency distribution ) Три ОСНОВНЫЕ ХАРАКТЕРИСТИКИ, которыми можно почти полностью описать большинство распределений « Середина » распределения; « Ширина » распределения; Форма распределения « Середина » Мода (mode) Медиана (median) Среднее значение (mean)

Изображение слайда
15

Слайд 15

Мода ( mode ) – наиболее часто встречающееся значение Частотное распределение переменной ( frequency distribution ) « Середина » распределения существует и для качественных, и для ранговых переменных

Изображение слайда
16

Слайд 16

Частотное распределение переменной ( frequency distribution ) « Середина » распределения Медиана ( median )– значение, которое делит распределение пополам ( его площадь в т.ч.): половина значений больше медианы, половина – не больше. 1 2 4 5 9 6 7 8 Номера кроликов 10 11 Медиана = (11+1)/2 = 6 Имеет смысл для ранговых и количественных переменных, но не для качественных 3

Изображение слайда
17

Слайд 17

Частотное распределение переменной ( frequency distribution ) « Середина » распределения Среднее значение – сумма всех значений переменной, делённая на количество значений *« balancing point » method Среднее для выборки Среднее для популяции

Изображение слайда
18

Слайд 18

Частотное распределение переменной ( frequency distribution ) « Середина » распределения Мода, медиана и среднее СОВПАДАЮТ для симметричного унимодального распределения К появлению перекоса чувствительнее всего среднее значение ЗАРПЛАТА, $ ЧАСТОТА 200000 1 20000 1 19000 1 14000 3

Изображение слайда
19

Слайд 19

Частотное распределение переменной ( frequency distribution ) « Ширина » распределения = Разброс * Размах (range) Стандартное отклонение (standard deviation) Дисперсия (variance) * Это лишь основные параметры разброса Размах ( range ) – разность между максимальным и минимальным значениями = X n – X 1 Хорош тем, что легко считается и имеет «биологический смысл». Плох тем, что зависит лишь от 2-х точек из всего распределения

Изображение слайда
20

Слайд 20

Стандартное отклонение (standard deviation) Частотное распределение переменной ( frequency distribution ) Разброс распределения Для выборки : Для популяции: Поправка на то, что в выборке разброс всегда будет меньше, чем во всей популяции Стандартное отклонение зависит ото всех значений переменной Сумма квадратов ( sum of squares = SS )

Изображение слайда
21

Слайд 21

Стандартное отклонение (standard deviation): для нормального распределения = дистанции от среднего значения до каждой из точек перегиба Частотное распределение переменной ( frequency distribution ) Разброс распределения s s Стандартное отклонение измеряется в тех же единицах, что и переменная!

Изображение слайда
22

Слайд 22

Частотное распределение переменной ( frequency distribution ) Разброс распределения Дисперсия (variance) Для выборки : Для популяции: Равна стандартному отклонению в квадрате и содержит почти ту же информацию; измеряется в единицах переменной, возведённых в квадрат (что не всегда удобно). Дисперсия используется скорее в различных статистических тестах, а не в описательной статистике

Изображение слайда
23

Слайд 23

Частотное распределение переменной ( frequency distribution ) Другие параметры распределения : Процентили Квартили ( quartiles ) делят распределение на четыре части так, что в каждой из них оказывается поровну значений (2-я квартиль = медиана). 1-я квартиль = 25% процентиль 3-я квартиль = 75% процентиль Интерквартильный размах – разница между третьей и первой квартилями. Коэффициент вариации ( Coefficient of variation )

Изображение слайда
24

Слайд 24

Квартиль 1 Квартиль 3 медиана Частота Значение переменной 25% 25% 25% 25% 1 2 3 4 5 6 Частотное распределение переменной ( frequency distribution )

Изображение слайда
25

Слайд 25

Частотное распределение переменной ( frequency distribution ) Процентили и z- оценка 95% процентиль – значение переменной, левее которого находится 95% значений переменной 95%

Изображение слайда
26

Слайд 26

Частотное распределение переменной ( frequency distribution ) Процентили и z- оценка Z- оценка ( z-scores ) – переменная, соответствующая количеству стандартных отклонений относительно среднего значения точка перегиба Z- оценка выборка популяция

Изображение слайда
27

Слайд 27

Частотное распределение переменной ( frequency distribution ) «Площадь распределения» Площадь, которую занимает график распределения, соответствует количеству измерений в выборке. Отрезая часть распределения на графике, мы отделяем эквивалентную часть от выборки частота масса, кг 16% площади распределения ~ 16% объёма выборки

Изображение слайда
28

Слайд 28

Частотное распределение переменной ( frequency distribution ) Площадь нормального распределения Нормальное распределение определяется лишь 2-мя параметрами – μ и σ. Необыкновенное свойство : Относительные площади под участками нормального распределения всегда одинаковы!

Изображение слайда
29

Слайд 29

Частотное распределение переменной ( frequency distribution ) Площадь нормального распределения Z- оценка (количество стандартных отклонений) Откладывая от среднего значения стандартное отклонение ( в ту или другую сторону ) мы всегда отрезаем строго определённую долю популяции, приблизительно : Пример с IQ ( μ =100, σ =15 )

Изображение слайда
30

Слайд 30

Частотное распределение переменной ( frequency distribution ) Площадь нормального распределения

Изображение слайда
31

Слайд 31

Распределение выборочных средних ( sampling distribution of the means ) Три основные концепции в анализе данных: Что такое РАСПРЕДЕЛЕНИЕ переменной и как его описывать Что такое распределение ВЫБОРОЧНЫХ СРЕДНИХ и как оно связано с распределением переменной Что такое СТАТИСТИКА КРИТЕРИЯ выборка популяция популяция Мы ловим 4-х кроликов и считаем их среднюю массу; ловим ещё 4-х, снова считаем среднюю массу, опять ловим….

Изображение слайда
32

Слайд 32

Распределение выборочных средних ( sampling distribution of the means ) Выборка должна быть РЕПРЕЗЕНТАТИВНОЙ, т.е. её свойства должны отражать свойства популяции. Для этого она должна быть СЛУЧАЙНОЙ ( random ) – т.е., все особи в популяции должны иметь одинаковые шансы попасть в неё. Пример : если в одну группу поместить зверьков, которые первыми вышли из клетки, а в другую – тех, кто в ней остался, выборки буду неслучайными клетка

Изображение слайда
33

Слайд 33

Распределение выборочных средних ( sampling distribution of the means ) Ещё раз центральный статистический вопрос: что мы можем сказать обо всей ПОПУЛЯЦИИ, если всё, что у нас есть, это лишь ВЫБОРКА из неё? На ферме живёт 1000 кроликов, которые содержатся в 25-и вольерах по 22 зверька. Средняя масса кролика – μ = 50 кг, σ = 4 кг. Посчитаем средние массы для каждой вольеры! Форма распределений маленьких выборок не обязательна должна удовлетворять критериям нормального распределения. …..

Изображение слайда
34

Слайд 34

Распределение выборочных средних ( sampling distribution of the means ) Мы посчитали средние массы кроликов в КАЖДОЙ вольере, и теперь построим распределение из этих СРЕДНИХ значений! 50 5 55 60 45 40 50 1.2 Оно будет намного УЖЕ распределения всех кроликов на ферме, и уже, чем каждое из распределений из отдельных вольер Это и будет распределение выборочных средних ( sampling distribution of the means )

Изображение слайда
35

Слайд 35

Распределение выборочных средних ( sampling distribution of the means ) s Распределение выборочных средних Выборка (из вольеры) Популяция (вся ферма) среднее стандартное отклонение >> Стандартная ошибка среднего (Standard error = SE)

Изображение слайда
36

Слайд 36

Распределение выборочных средних ( sampling distribution of the means ) ЦЕНТРАЛЬНАЯ ПРЕДЕЛЬНАЯ ТЕОРЕМА Определяет форму, среднее и разброс в распределении выборочных средних Форма: с увеличение размера выборок (вольер) распределение выборочных средних приближается к нормальному распределению (независимо от формы распределения популяции). Среднее: среднее значение в распределении средних равно среднему значению в популяции, т.е., Разброс: распределение выборочных средних уже распределения популяции на, где n – объём выборки, т.е. Пример с монеткой

Изображение слайда
37

Слайд 37

Распределение выборочных средних ( sampling distribution of the means ) Следствие: если некоторая величина отклоняется от среднего под воздействием слабых, независимых друг от друга факторов, она имеет нормальное распределение. Поэтому оно так широко распространено в природе!

Изображение слайда
38

Слайд 38

Распределение выборочных средних ( sampling distribution of the means ) Использование распределения выборочных средних Из нашей выборки мы получили среднее значение. Насколько оно близко истинному среднему значению во всей популяции ? Мы знаем, что для нормального распределения существует z -оценка, значениям которой соответствуют однозначно определённые площади распределения. Но мы также знаем, что выборочные средние образуют нормальное распределение !!

Изображение слайда
39

Слайд 39

Распределение выборочных средних ( sampling distribution of the means ) 0 5 1 2 -1 -2 Z - оценка 0 1.2 Z - оценка Вопрос : какая часть ОСОБЕЙ имеет массу больше 55 кг? Другой вопрос : какая часть ВЫБОРОК имеет СРЕДНЮЮ массу больше 55 кг? Пример про бутылки с кока-колой

Изображение слайда
40

Слайд 40

Оценка параметров популяции на основе свойств выборки Мы посчитали среднюю массу кроликов в одной вольере, но на самом деле нас интересует средняя масса всех кроликов ! Решим обратную задачу: Пусть мы изначально знаем среднюю массу кроликов на ферме и стандартное отклонение в популяции. Как оценить среднюю массу в одной из вольер? Построим распределение выборочных средних! Вспомним, что оно – нормальное, а его среднее значение соответствует среднему в популяции. 0 1 2 -1 -2 1.2 μ Зная стандартное отклонение в нем (= SE!! ) можем рассчитать интервал, в который попадёт 95% (99%) всех средних масс в вольерах: cv – critical value

Изображение слайда
41

Слайд 41

Оценка параметров популяции на основе свойств выборки 95 % доверительный интервал ( 95% confidence interval ): интервал значений переменной, который с вероятностью 95% содержит нужный параметр. Т.е., расстояние от выборочного среднего до среднего значения в популяции в 95 % выборок не больше 1.96 SE Вернёмся к исходной задаче: Как оценить среднюю массу в популяции, если нам известно среднее в выборке ?? Расстояние от среднего в выборке до (неизвестного) среднего в популяции с вероятностью 95% не больше 1.96 SE

Изображение слайда
42

Слайд 42

Оценка параметров популяции на основе свойств выборки Вопрос: где расположено μ ? Ответ: я точно не знаю, но наиболее вероятно – в пределах ± 2-х стандартных ошибок среднего ( SE ) Чем больше уровень достоверности – 99%, 99,9%... (= доверительный уровень) тем ШИРЕ будет интервал Вопрос: где расположено μ ? Ответ: я совершенно уверен, что оно лежит в пределах... от до В примере нам было известно σ, но на практике оно обычно неизвестно!

Изображение слайда
43

Слайд 43

Оценка параметров популяции на основе свойств выборки Мы не знаем стандартное отклонение в популяции, и оцениваем его через стандартное отклонение в выборке – поэтому, доверительный интервал должен быть ШИРЕ, чем при известном σ. И поправка ( t вместо z -оценки) будет зависеть от РАЗМЕРА ВЫБОРКИ (число степеней свободы df = n-1 ) df

Изображение слайда
44

Последний слайд презентации: Основные понятия. Описательная статистика. Занятие 1

t -распределение (Стьюдента) df = k При больших ( >30 ) размерах выборок приближается к нормальному

Изображение слайда