Презентация на тему: Занятие 5

Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
Занятие 5
1/69
Средняя оценка: 4.3/5 (всего оценок: 9)
Код скопирован в буфер обмена
Скачать (6025 Кб)
1

Первый слайд презентации: Занятие 5

Корреляции. Регрессионный анализ

Изображение слайда
2

Слайд 2

До сих пор нас в наших выборках интересовала только одна зависимая переменная. Мы изучали, отличается ли распределение этой переменной в одних условиях от распределения той же переменной в других условиях. Настало время обратиться к ситуации, когда зависимых переменных будет ДВЕ и более. Это могут быть измерения одной особи или связанных пар. КОРРЕЛЯЦИИ ( correlation )

Изображение слайда
3

Слайд 3

Мы исследуем жёлтых сусликов. И хотим узнать, не связаны ли между собой у них масса и длина хвоста ? Переменные – 1. масса; 2. длина хвоста. Корреляции

Изображение слайда
4

Слайд 4

КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ характеризует силу связи между переменными. ЭТО ПРОСТО ПАРАМЕТР ОПИСАТЕЛЬНОЙ СТАТИСТИКИ Большой коэффициент корреляции между массой тела и длиной хвоста позволяет нам предсказывать, что у большого суслика, скорее всего, и хвост будет длинным Вопрос : в какой степени две переменные СОВМЕСТНО ИЗМЕНЯЮТСЯ? (т.е., повлечёт ли за собой увеличение одной переменной увеличение или уменьшение другой, или не повлечёт) Корреляции

Изображение слайда
5

Слайд 5

Коэффициент корреляции Может принимать значения от -1 до +1 Знак коэффициента показывает направление связи (прямая или обратная) Абсолютная величина показывает силу связи всегда основан на парах чисел (измерений 2-х переменных от одной особи или 2-х переменных от разных, но связанных особей) Корреляции r – в случае, если мы характеризуем ВЫБОРКУ - если мы характеризуем ПОПУЛЯЦИЮ

Изображение слайда
6

Слайд 6

r= 1. 0 : если Петя высокого роста, значит, Гриша тоже высокий, это не предположение, а факт. r= 0. 7 : если Петя высокий, то, скорее всего, Гриша тоже высокий. r= 0. 0 : если Петя высокий, то мы… не можем сказать росте Гриши НИЧЕГО. Рост братьев: коэффициент корреляции r -? Петя Гриша Корреляции

Изображение слайда
7

Слайд 7

Корреляции Скаттерплот (= диаграмма рассеяния; scatterplot, scatter diagram ) Главное – наклон (направление связи) и ширина (сила связи) воображаемого эллипса

Изображение слайда
8

Слайд 8

Корреляции r=0.90 r=-0.90 r=0.00 r=0.40

Изображение слайда
9

Слайд 9

Коэффициент корреляции Пирсона ( Pearson product-moment correlation coefficient r ) Корреляции Karl Pearson ( 1857 –1936 )

Изображение слайда
10

Слайд 10

стандартное отклонение для хвоста стандартное отклонение для веса Коэффициент корреляции Пирсона суслик вес хвост Дима 72 160 Гриша 66 144 Миша 68 154 Коля 74 210 Федя 68 182 Рома 64 159 68,7 168,2 для каждого X и Y (для каждого суслика) число строк (сусликов) Корреляции z – оценки (см. занятие 1)

Изображение слайда
11

Слайд 11

параметр ВЫБОРКИ параметр ПОПУЛЯЦИИ Всё как для других параметров описательной статистики: среднего, дисперсии, и т.д.! Корреляции Что определяет ?

Изображение слайда
12

Слайд 12

Чем определяются знак и величина коэффициента корреляции? здесь и X, и Y больше среднего : их произведение >0 здесь и X, и Y меньше среднего: их произведение >0 здесь X больше среднего, а Y меньше : их произведение <0 здесь Y больше среднего, а X меньше : их произведение <0 Корреляции Знаком и величиной :

Изображение слайда
13

Слайд 13

Создаётся впечатление, что близкий к нулю коэффициент корреляции говорит о том, что связи между переменными нет или почти нет. НО это не всегда так, есть исключения. Здесь и впрямь её нет Корреляции

Изображение слайда
14

Слайд 14

1. Коэффициент корреляции Пирсона оценивает только линейную связь переменных! И он не покажет нам наличие нелинейной связи r=0.00 Здесь связь переменных есть, и она очень сильная, но r=0.00 Корреляции Факторы, влияющие на коэффициент корреляции

Изображение слайда
15

Слайд 15

Корреляции

Изображение слайда
16

Слайд 16

2. Необходимо, чтобы у переменных была значительная изменчивость ! Если сформировать выборку изначально однотипных особей, нечего надеяться выявить там корреляции. Корреляции

Изображение слайда
17

Слайд 17

I'm not an outlier; I just haven't found my distribution yet! Ronan Conroy аутлаер 3. Коэффициент корреляции Пирсона очень чувствителен к аутлаерам. Корреляции

Изображение слайда
18

Слайд 18

Важное замечание: Корреляция совершенно не подразумевает наличие причинно-следственной связи ! Она ВООБЩЕ НИЧЕГО о ней НЕ ГОВОРИТ (даже очень большой r ) Корреляции

Изображение слайда
19

Слайд 19

Коэффициент корреляции Пирсона – параметр выборки. Можем ли мы на основе него судить о популяции ? Просто глядя на коэффициент – НЕТ. Correlation between each x and y = 0.816 Корреляции

Изображение слайда
20

Слайд 20

Корреляции H 0 : ρ =0 H 1 : ρ ≠ 0 Связаны ли у сусликов масса тела и длина хвоста ? (альтернативная гипотеза может быть односторонней) Мы хотим оценить коэффициент корреляции в популяции.

Изображение слайда
21

Слайд 21

Корреляции Статистика = параметр выборки – параметр популяции стандартная ошибка параметра выборки стандартная ошибка коэффициента корреляции

Изображение слайда
22

Слайд 22

Pearson product-moment correlation coefficient r

Изображение слайда
23

Слайд 23

Отвергаем Н 0 : Оказалось, что масса тела у сусликов положительно связана с длиной хвоста.

Изображение слайда
24

Слайд 24

Бывают задачи, когда нам необходимо получить МАТРИЦУ КОРРЕЛЯЦИЙ (для многомерных методов анализа)

Изображение слайда
25

Слайд 25

Можно сравнить два коэффициента корреляции от двух выборок Для двумерного нормального распределения

Изображение слайда
26

Слайд 26

Корреляции В статьях обычно приводят сам коэффициент корреляции Пирсона ( значение t не столь обязательно ). Он сам и является показателем практической значимости ( effect size ) корреляции. Cohen, 1988 : ρ = 0.1 - слабая корреляция; ρ = 0.3 – корреляция средней силы; ρ = 0.5 - сильная корреляция.

Изображение слайда
27

Слайд 27

Требование к выборке для тестирования гипотезы о коэффициенте корреляции Пирсона: Для каждого X значения Y должны быть распределены нормально, и для каждого Y все X должны иметь нормальное распределение - частота значение признака Корреляции двумерное нормальное распределение ( bivariate normal distribution )

Изображение слайда
28

Слайд 28

Непараметрические тесты для ассоциаций (ранговые) Коэффициент корреляции Спирмана ( Spearman rank order correlation ) Связана ли дистанция расселения с индексом упитанности у мыши? Переменные – 1. дистанция расселения; 2. индекс упитанности ( ранговый ) Корреляции

Изображение слайда
29

Слайд 29

Для нашей задачи не годится коэффициент корреляции Пирсона: одна из переменных ранговая! Коэффициент корреляции Спирмана: Ранжируем данные для каждой переменной от меньшего к большему; Если встретились одинаковые значения ( tied ranks ), присваиваем им средние ранги; Считаем разности рангов в каждой строчке (паре); Считаем коэффициент r s разности рангов число строк (размер выборки) Корреляции

Изображение слайда
30

Слайд 30

Подходит для 2-х и более переменных, лучший для дробных количественных признаков. Размер выборки ≥ 10. H 0 : ρ s =0 H 1 : ρ s ≠ 0 Статистика критерия – сам коэффициент корреляции Спирмана (имеет t- распределение) Коэффициент Спирмана – аналог коэффициента корреляции Пирсона, стремится к нему в больших выборках. Корреляции

Изображение слайда
31

Слайд 31

Spearman Rank Order Correlations

Изображение слайда
32

Слайд 32

Отвергаем Н 0 : Оказалось, что дистанция расселения положительно связана с упитанностью у мыши. Spearman Rank Order Correlations

Изображение слайда
33

Слайд 33

2. Коэффициент корреляции Кендалла ( Kendall’s coefficient of rank correlation, Kendall- τ ) Связана ли дистанция расселения с упитанностью у экзотических зелёных мышей? Он оценивает разность между вероятностью того, что порядок данных в обеих переменных одинаков, и вероятностью того, что порядки разные. Считается совсем не так, как коэффициент Спирмана. Только для ранговых переменных! Для количественных лучше коэффициент Спирмана

Изображение слайда
34

Слайд 34

3. Гамма-статистика ( Gamma ) Почти как коэффициент корреляции Кендалла, её лучше использовать, если в выборке много совпадающих значений ( tied ranks) - она их учтёт. Ближе к коэффициенту Кендалла (тоже оценивает вероятность совпадений).

Изображение слайда
35

Слайд 35

Kendall’s coefficient of rank correlation, Kendall- τ Отвергаем Н 0 : дистанция расселения у зелёных мышей отрицательно связана с упитанностью.

Изображение слайда
36

Слайд 36

3. Коэффициент конкордантности Кендалла ( Kendall’s coefficient of concordance ) Используется для сравнения ранговых признаков например, при сравнении мнений разных экспертов (6 детей и 3 типа пирожных). Переменных может быть 3 и более Считается он на основе среднего всех коэффициентов корреляции Спирмана. Петя Гриша Гурвинек

Изображение слайда
37

Слайд 37

Коэффициент конкордантности Кендалла

Изображение слайда
38

Слайд 38

Гипотезу о 0 ≤ coeff. of conc. ≤ 1 Чем ближе коэффициент к 1, тем выше корреляция. Чем ближе к нулю, тем меньше связь переменных (например, согласие экспертов).

Изображение слайда
39

Слайд 39

r= 0. 7 : если Петя высокий, то, скорее всего, Гриша тоже высокий. Но можем ли мы предсказать, насколько высокий ? Сам коэффициент корреляции этого нам не скажет. Ответ нам даст РЕГРЕССИОННЫЙ АНАЛИЗ. Рост братьев. Петя Гриша РЕГРЕССИОННЫЙ АНАЛИЗ

Изображение слайда
40

Слайд 40

Регрессионный анализ предсказывает значение одной переменной на основании другой. Для этого в линейной регрессии строится прямая – линия регрессии. Линейная регрессия: Даёт нам правила, определяющие линию регрессии, которая лучше других предсказывает одну переменную на основании другой. По оси Y располагают переменную, которую мы хотим предсказать, а по оси Х – переменную, на основе которой будем предсказывать. Предсказанное значение Y обычно обозначают как Регрессии

Изображение слайда
41

Слайд 41

То есть, РЕГРЕССИЯ ( regression ) – предсказание одной переменной на основании другой. Одна переменная – независимая ( independent), а другая – зависимая ( dependent ). Пример : скорость набора веса у бегемота растёт с увеличением продолжительности кормления; долго кормившийся бегемот быстрее набирает вес КОРРЕЛЯЦИЯ ( correlation ) – показывает, в какой степени две переменные СОВМЕСТНО ИЗМЕНЯЮТСЯ. Нет зависимой и независимой переменных, они эквивалентны. Пример : длина хвоста у суслика коррелирует положительно с его массой тела ЭТО НЕ ОДНО И ТО ЖЕ! Регрессии

Изображение слайда
42

Слайд 42

Мы изучаем поведение бегемотов в Африке. Мы хотим узнать, как связана длительность кормления со скоростью набора веса у этих зверей? У нас две переменные – 1. длительность кормления в день ( independent ); 2. скорость набора веса в день (dependent) 1 час в день 5 часов в день 20 часов в день Регрессии

Изображение слайда
43

Слайд 43

Мы ищем прямую, которая наилучшим образом будет предсказывать значения Y на основании значений Х. прибавка в весе в день длительность кормления прибавка в весе в день длительность кормления прибавка в весе в день длительность кормления Регрессии

Изображение слайда
44

Слайд 44

Простая линейная регрессия ( linear regression ) Y – зависимая переменная X – независимая переменная a и b - коэффициенты регрессии b – характеризует НАКЛОН прямой; это самый важный коэффициент; a – определяет точку пересечения прямой с осью OY ; не столь существенный ( intercept ). Пояснить размерность b и a Регрессии

Изображение слайда
45

Слайд 45

Задача сводится к поиску коэффициентов a и b. коэффициент корреляции Пирсона! стандартные отклонения для X и Y Линия регрессии всегда проходит через точку, то есть через середину графика. b – определяет, насколько изменится Y на единицу X ; имеет тот же знак, что и r. Пример с кол-вом удобрения на каждый кг помидоров Регрессии

Изображение слайда
46

Слайд 46

Длительность кормления Прибавка в весе в день X Y Регрессии

Изображение слайда
47

Слайд 47

Если r=0.0, линия регрессии всегда горизонтальна. Чем ближе r к нулю, тем труднее на глаз провести линию регрессии. А чем больше r, тем лучше предсказание. Важная особенность нашего предсказания: предсказанное значение Y всегда ближе к среднему значению, чем то значение X, на основе которого оно было предсказано – регрессия к среднему. Пример про Dr. Nostat, который отобрал 100 самых глупых учеников, подверг их специальной программе и потом протестировал повторно, и их IQ оказался в среднем выше. Пример про очень умную 5-летнюю девочку Регрессии

Изображение слайда
48

Слайд 48

Регрессии Линия регрессии в стандартной форме a = 0, b = r ( математическое объяснение регрессии к среднему )

Изображение слайда
49

Слайд 49

Ошибка предсказания ( residual ) = «остатки» прибавка в весе в день длительность кормления e положительно для точек над прямой и отрицательно для точек под прямой. «Лучшая» линия регрессии Регрессии

Изображение слайда
50

Слайд 50

Метод наименьших квадратов: линию регрессии подбирают такую, чтобы общая сумма квадратов ошибок ( residuals ) была наименьшей. - минимальна Регрессии Как определить «лучшую» линию регрессии?

Изображение слайда
51

Слайд 51

Насколько хорошо «лучшая» линия регрессии предсказывает Y ? Чем меньше стандартное отклонение ошибок e i ( standard error of estimate ), тем точнее предсказание (потому, что оно напрямую зависит от размера самих ошибок). зависит от квадрата коэффициента корреляции Регрессии

Изображение слайда
52

Слайд 52

Чем больше коэффициент корреляции, тем меньше стандартное отклонение ошибки, и наоборот. Важное требование к выборке : размер этой стандартной ошибки должен быть независимым от Х. Квадрат коэффициента корреляции Пирсона называется коэффициент детерминации ( coefficient of determination ) - r 2 или R 2. Определяет, какую долю изменчивости зависимой переменной объясняет независимая переменная (т.е., насколько точно предсказание). Насколько велик или мал коэффициент корреляции 0.3? 0.3 2 = 0.09, независимая переменная объясняет только около 1/10 изменчивости зависимой переменной. Регрессии

Изображение слайда
53

Слайд 53

Для любого значения X i Y должна иметь нормальное распределение То есть прибавка в весе для всех бегемотов, кормившихся по 20 часов в день имеет нормальное распределение 20 часов в день Регрессии

Изображение слайда
54

Слайд 54

Требования к выборке для построения линии регрессии Ожидаемая зависимость переменной Y от X должна быть линейной. Для любого значения X i Y должна иметь нормальное распределение. Для любого значения X i выборки для Y должны иметь одинаковую дисперсию ( homoscedasticity ). Для любого значения X i выборки для Y должны быть независимы друг от друга. Регрессии

Изображение слайда
55

Слайд 55

Тестирование гипотезы в регрессионном анализе: отличен ли от нуля наклон линии регрессии? Н 0 : b population = 0 Если r достоверно отличается от нуля, то и b ≠ 0! То есть, если мы отвергаем H 0 о том, что r=0, то эта гипотеза отвергается автоматически. Регрессии b population часто обозначается как, в т.ч. в Statistica

Изображение слайда
56

Слайд 56

linear regression

Изображение слайда
57

Слайд 57

linear regression У бегемотов прибавка в весе положительно зависела от длительности кормления

Изображение слайда
58

Слайд 58

Коэффициент наклона в стандартной форме Коэффициенты a и b Часто «остатки» используют как самостоятельную переменную

Изображение слайда
59

Слайд 59

Изображение слайда
60

Слайд 60

Изображение слайда
61

Слайд 61

Сравнение двух линий регрессии Сравнение коэффициентов наклона b 1 b 2 Сравнение коэффициентов сдвига a 1 и a 2 Сравнение двух линий регрессии в целом (предполагается, что если линии для 2-х выборок у нас сильно различаются, и мы объединим выборки, то общая линия по этим двум выборкам будет хуже описывать изменчивость, остаточная дисперсия будет больше) – на основе F -критерия На основе критерия Стьюдента линии регрессии

Изображение слайда
62

Слайд 62

Трансформация в регрессии В случае, если наши переменные связаны друг с другом принципиально не линейной зависимостью: можно трансформировать данные и привести зависимость к линейной; Можно угадать или как-то предположить функцию, которая их связь отражает и потом сравнить данные с ней

Изображение слайда
63

Слайд 63

Непараметрические методы Kendall’s robust line-fit method Выборку упорядочивают по возрастанию НЕЗАВИСИМОЙ переменной и считают все отношения Y j -Y i к X j –X i. На основе этого считают b. Минимальное число измерений - 5 L-test of ordered alternatives В случае, если наши данные в принципе ранговые В СТАТИСТИКЕ ОТСУТСТВУЮТ

Изображение слайда
64

Слайд 64

ANCOVA Когда мы в ANOVA собирались анализировать действие какого-то фактора, стремились к тому, чтобы всякая посторонняя изменчивость была поменьше. Пример : чтобы проанализировать влияние питания на вес тигров, мы постараемся взять тигров одного возраста и исходно близкой массы. Но: как быть, если наши тигры изначально разные по весу? Или по возрасту? ( это непрерывные переменные ) Комбинированный тип анализа – ANOVA + регрессионный анализ = ANCOVA

Изображение слайда
65

Слайд 65

ANCOVA : прибавка в весе у бегемотов в разных типах местообитания

Изображение слайда
66

Слайд 66

Тип местообитания не влиял на прибавку в весе, она зависела только от длительности кормления.

Изображение слайда
67

Слайд 67

1. у работников телевидения создалось впечатление, что в компании BBC новости идут слишком долго по сравнению с Американским телевидением. Чтобы это выяснить, сотрудники выбрали по 20 выпусков новостей из Британии и США, и измерили длительность (мин). Верно ли предположение работников? Н 0 ? Статистический критерий? 2. исследователь решил узнать, как зависит размер дома у семьи от дохода семьи (в год). Собрал данные от 50 семей. Н 0 ? Статистический критерий? Как изменится результат теста, если доходы семей увеличатся каждая на 5000$ в год?

Изображение слайда
68

Слайд 68

3. педиатры изучают прибавку в весе у младенцев (её оценивают как разницу в массе ребёнка в 2 мес и при рождении). При этом, в их выборке есть дети, которые вскармливаются искусственно, а есть те, которые находятся на грудном вскармливании. Кроме того, некоторые матери кормят младенцев по требованию, другие же – строго по расписанию. Влияют ли тип пищи и распорядок вскармливания на прибавку в весе? Н 0 ? Статистический критерий? 4. владелец бассейна думает, что количество хлора, которое ежедневно затрачивается на то, чтобы содержать бассейн в чистоте, зависит от температуры воздуха. Он стал отмечать, сколько каждый раз у него уходит хлора на очистку, и взял из газет данные о дневных температурах. Так он делал в течение месяца. Зависит ли количество хлора от температуры? Н 0 ? Статистический критерий?

Изображение слайда
69

Последний слайд презентации: Занятие 5

5.Доктор Ворнер изучает, какие ярлычки с предупреждением об опасности лучше действуют (добрвольцы оценивают опасность по 100-бальной шкале). Он выбрал 40 добровольцев разбил их на 4 группы и показал им 4 типа ярлычков – красные (обычный шрифт), красные (жирный шрифт), чёрные (курсив), чёрные (заглавные буквы). Предыдущее исследование показало, что цвет ярлыка важнее, чем шрифт. Так ли это? 6. исследователь хочет узнать, насколько мнения мужчин сходны, когда они оценивают привлекательность женщин. Он выбрал двух добровольцев и показал им по 20 фотографий с девушками, попросив оценить их привлекательность от 1 до 10. Н 0 ? Статистический критерий? Изменится ли выбор критерия, если добровольцев будет четверо?

Изображение слайда