Презентация на тему: Корреляционный анализ

Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Линейная корреляция
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Расчет коэффициента корреляции для невзвешенных рядов
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
А теперь…
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Оценка прямой нелинейной зависимости между признаками
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Ранговая корреляция
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Для ранговой корреляции также вычисляются:
Корреляционный анализ
1/58
Средняя оценка: 4.7/5 (всего оценок: 41)
Код скопирован в буфер обмена
Скачать (21338 Кб)
1

Первый слайд презентации: Корреляционный анализ

Изображение слайда
2

Слайд 2

Между природными явлениями и процессами связь бывает односторонней и взаимной. Связи между явлениями (или корреляцию) определяют путем постановки серии опытов. Математические методы позволяют установить тесноту таких связей с помощью корреляционного анализа.

Изображение слайда
3

Слайд 3

Любой показатель связи служит приближенной оценкой рассматриваемой зависимости и не является гарантией существования жесткой (функциональной) соподчиненности. Вскрытие корреляции в географической среде позволяет предвидеть, прогнозировать закономерности развития природы.

Изображение слайда
4

Слайд 4

По форме корреляционная связь бывает линейной и нелинейной (криволинейной), по направлению — прямой и обратной, по величине—, от 0 до ±1 по количеству коррелируемых признаков — парной и множественной

Изображение слайда
5

Слайд 5

Выделяют несколько видов парной корреляционной связи: а) параллельно-соотносительную, или ассоциативную, когда оба признака изменяются сопряженно, частично под действием общих причин и следствий (приуроченность растительности и почв к определенным формам рельефа);

Изображение слайда
6

Слайд 6

б) субпричинную, когда один фактор выступает как отдельная причина сопряженного изменения признака (связь биомассы с количеством осадков); в) взаимоупреждающую, когда причина и следствие, находясь в устойчивой взаимной связи, последовательно влияют друг на друга.

Изображение слайда
7

Слайд 7

Если на признак влияет несколько факторов, то приходится оценивать множественную корреляцию. Множественная корреляция служит основой выявления связей между признаками, но требует строгой нормальности и прямолинейности распределения, поэтому использование ее затруднено

Изображение слайда
8

Слайд 8

В практической работе по установлению корреляции между признаками и явлениями необходимо придерживаться следующей последовательности: на основании исследований определяют, существует ли связь между рассматриваемыми признаками; 2) если связь между явлениями и признаками существует, устанавливают форму, направление и тесноту связи, используя график или корреляционную решетку.

Изображение слайда
9

Слайд 9

В случае небольшой выборки составляются сопряженные вариационные ряды, в которых следует определить аргумент x и функцию у: x 10 12 16 18 21 23 25 30 y 2 4 5 7 8 9 9 10 Сопряженные варианты наносятся на график, который помогает установить вид зависимости между аргументом и функцией. От формы корреляционной связи зависит дальнейшая обработка аналитических данных.

Изображение слайда
10

Слайд 10

Рисунок 1 - Формы корреляционной связи: а—прямая линейная; б—обратная линейная; в—параболическая; г—гиперболическая

Изображение слайда
11

Слайд 11

Рисунок 2 - Степень рассеяния частот и величина связи: а – r ≈ 0; б – r ≈ 0,5 ; в – r ≈ 0,8

Изображение слайда
12

Слайд 12

Прямолинейная зависимость (линейная зависимость) предполагает вычисление коэффициента корреляции r, а нелинейная (криволинейная) зависимость — корреляционного отношения η (рис. 1). Степень рассеяния частот или вариант относительно линии регрессии на графике указывает ориентировочно на тесноту связи: чем меньше рассеяние, тем сильнее связь (рис. 2).

Изображение слайда
13

Слайд 13

Для взвешенных сопряженных вариационных рядов при большом объеме выборочных совокупностей строится корреляционная решетка (таблица 1) y х f y 10 15 20 25 30 35 2 7 12 17 22 27 2 7 9 8 2 4 12 5 3 1 4 2 1 5 2 7 19 21 10 6 f x 22 23 8 4 3 5 N=65 Таблица 1 - Схема корреляционной решетки

Изображение слайда
14

Слайд 14

В корреляционной решетке указываются середины классов сверху по горизонтали — по аргументу х, слева по вертикали — по функции у. В центре расположены частоты выделенных классов. Справа по вертикали суммируются частоты по функции у, внизу по горизонтали — по аргументу х, Сумма частот по вертикали и горизонтали дает один и тот же объем выборки N =65. Исходя из распределения частот в корреляционной решетке, можно заключить, что связь между аргументом и функцией нелинейная, поэтому в данном случае следует рассчитывать корреляционное отношение η.

Изображение слайда
15

Слайд 15: Линейная корреляция

Изображение слайда
16

Слайд 16

Если зависимость между признаками на графике указывает на линейную корреляцию, рассчитывают коэффициент корреляции r, который позволяет оценить тесноту связи переменных величин, а также выяснить, какая доля изменений признака обусловлена влиянием основного фактора, какая — влиянием других факторов.

Изображение слайда
17

Слайд 17

При положительной зависимости величина коэффициента корреляции изменяется от 0 до + 1, при отрицательной — от 0 до -1. Если r = 0, то связь между признаками отсутствует. Принято считать, что при r < 0,5 корреляционная зависимость слабая, при r = 0,5 - 0,7 - средняя, при r = 0,7 - 0,99 — сильная.

Изображение слайда
18

Слайд 18

Коэффициент корреляции приближенно характеризует тесноту связи между признаками. Поэтому иногда при высоком значении коэффициента корреляции и небольшом объеме выборки связь между признаками может быть слабой. Мерой корреляционной связи является величина d xy, получившая название коэффициента детерминации, который определяется по формуле d ху = r 2 • 100%.

Изображение слайда
19

Слайд 19

Коэффициент детерминации указывает на долю взаимной связи между признаками. Например, если r = 0,30, то d xy = 0,09, т. е. 9 % всех изменений одного признака связано с изменением другого. Отсюда следует, что значения r ≥ 0,70, при которых истинная взаимообусловленность признаков составляет около 50%, можно считать высокими, значения r, равные 0,5-0,7,— средними и r ≤ 0,5— низкими.

Изображение слайда
20

Слайд 20

Одна и та же величина коэффициента корреляции будет по-разному определять достоверность зависимости признаков для малых и больших выборок. Например, при Р=0,95 для N =5 достоверны значения r ≥ 0,878, для N=20 достоверной величиной будет r ≥ 0,444, для N =100 достоверны значения r ≥ 0,196.

Изображение слайда
21

Слайд 21

Корреляционный анализ решает следующие задачи : установление направления и формы связи, оценка тесноты связи, оценка репрезентативности статистических оценок взаимосвязи, определение величины детерминации ( доли взаимовлияния) коррелируемых факторов.

Изображение слайда
22

Слайд 22: Расчет коэффициента корреляции для невзвешенных рядов

Изображение слайда
23

Слайд 23

При работе с малыми выборками используется следующая формула для расчета коэффициента корреля­ции: r = где ( x i — М х ), (у i — М у ) —отклонения значений индивиду­альных вариант х i и у i от их средних значений М х и М у.

Изображение слайда
24

Слайд 24

Достоверность вычисленного коэффи­циента корреляции может быть определена двумя путя­ми: с помощью таблицы коэффициентов корреляции (при­ложение 7) сравнить рассчитанный коэффициент корре­ляции r ф с табличным r т ; установить достоверность коэф­фициента корреляции через критерий Стьюдента.

Изображение слайда
25

Слайд 25

Наиболее простой способ установления достоверности рассчитанного коэффициента корреляции — сравнение его с табличным значением. Если r ф > r т, то влияние фак­тора на признак достоверно; наоборот, если r ф < r т, то коэффициент корреляции не достоверен и влияние фак­тора на признак не существенно.

Изображение слайда
26

Слайд 26

При использовании критерия Стьюдента для доказа­тельства достоверности r вначале рассчитывают стан­дартную ( квадратическую ) ошибку коэффициента кор­реляции по формуле: где N П — число сопряженных пар в сравниваемых выбо­рочных совокупностях.

Изображение слайда
27

Слайд 27

Затем вычисляют критерий Стьюдента для коэффициента корреляции: Если t ф > t т, то корреляционная связь существенна, при t ф < t т — недостоверна

Изображение слайда
28

Слайд 28

Расчет коэффициента корреляции для взвешенных рядов

Изображение слайда
29

Слайд 29

Сначала строится корреляционная решетка, по которой определяется форма связи между признака­ми Схема корреляционной решетки для расчета r во взвешенных рядах y x a y f y a y f y 5 15 25 35 45 55 65 3,5 3,0 2,5 2,0 1,5 1,0 0,5 1 3 2 12 3 27 1 - 2 2 0 3 6 1 4 1 - 2 2 - 2 3 0 8 8 1 2 2 0 3 0 8 0 1 1 3 6 12 3 3 2 0 2 12 8 32 3 6 5 45 1 6 3 2 1 0 - 1 - 2 - 3 8 17 12 15 13 4 3 24 34 12 0 - 13 - 8 - 9 72 68 12 0 13 16 27 a x f x a x f x - 3 6 - 18 54 42 - 2 7 - 14 28 8 - 1 15 - 15 15 6 0 14 0 0 0 1 12 12 12 18 2 13 26 52 50 3 6 18 54 51 Σ 70 Σ 40 Σ 208 Σ a x f x =9 Σ =215 =175

Изображение слайда
30

Слайд 30

Коэффициент корреляции находится по формуле r = где f x, y — частота рядов х и у, а х, а у —отклонения вари­ант рядов х и у от условных средних М х, М у ; f х, f у — частоты рядов х и у соответственно; σ х, σ у — средние квадратические отклонения рядов х и у соответственно.

Изображение слайда
31

Слайд 31

Отклонения вариант в рядах устанавливаются следую­щим образом: где x i, у i — индивидуальные варианты; с х, с y — классовые интервалы в рядах х и у, М х, М у —средние арифметиче­ские

Изображение слайда
32

Слайд 32

Средние квадратические отклонения вычисляются по формулам

Изображение слайда
33

Слайд 33: А теперь…

Порешаем задачечки …

Изображение слайда
34

Слайд 34

Следует установить, достоверна ли зависимость меж­ду содержанием физической глины (х, %) и содержанием магния в минеральных почвах (у, %). Количество пар наблюдений N П =70. f = 8; М х =35, M y = 2,0

Изображение слайда
35

Слайд 35

Далее вычисляют условные отклонения а х, а у, представляющие собой отклонения середины классов от среднего значения классов, деленные на классовый интервал, т. е. разницу между соседними серединами классов ( с х =15—5=10; c y =1—0,5=0,5). На пример для расчета а х и а у : а x = (5-35):10= -3 для первого столбца, а у = (3,5 – 2):0,5 = 3 для первой строки. Затем вычисля­ются произведения условных отклонений на соответствующие им ча­стоты ( a x f x ; a y f y ) и записываются в отведенные для них столбцы и строки со своим знаком, например: a y f y = 3·8 = 24; а х f х =(- 3)·6= -18. Квадраты условных отклонений умножаются на соответствую­щие им частоты

Изображение слайда
36

Слайд 36

Поскольку r ф = 0,86 > r т = 0,30 при Р = 0,99 и v = 68 ( N П -2), то зависимость содержания общего магния от содержания физической глины в ми­неральной почве положительная, достоверная и достаточно высокая.

Изображение слайда
37

Слайд 37

Исследованиями установлено, что на содержание подвижного марганца в почве влияет реакция среды. Необходимо доказать достоверность установленной зависимости. Получены сле­дующие исходные данные ( х — гидролитическая кислотность, мг- экв. па 100 г почвы; у — содержание подвижного марганца, мг/кг почвы ): х 69 70 72 75 83 90 90 91 95 95 у 18 48 42 31 56 84 56 68 90 107

Изображение слайда
38

Слайд 38

Изображение слайда
39

Слайд 39

x i x i – M x (x i – M x ) 2 y i y i – M y ( y i – M y ) 2 (x i – M x )- ( y i – M y ) 69 18 70 48 72 42 75 31 83 56 90 84 90 56 91 68 95 90 95 107 Σ Σ Σ М х М у

Изображение слайда
40

Слайд 40

Зависимость между признаками не всегда выражается в виде прямой линии. Если рассеяние точек на графике приближается к кривой линии, то зависимость устанавливается с использованием корреляционного отношения (η), величина которого изменяется только от 0 до 1. Для него теоретические значения приводятся отдельно в таблице или находятся при перерасчете его в критерий Стъюдента. При нелинейной корреляции вычисляется корреляционное отношение (η - произносится Э Т А) Нелинейная корреляция

Изображение слайда
41

Слайд 41: Оценка прямой нелинейной зависимости между признаками

Нелинейная зависимость прямая определяется как параболическая. Расчет корреляционного отношения производится по формуле с использованием функции у : где – среднее арифметическое частных групп по y i ; n – число вариант в частной группе ; – M y – отклонение общего среднего ( M y ) от средних арифметических частных групп ( )

Изображение слайда
42

Слайд 42

Ошибка корреляционного отношения независимо от способа расчета вычисляется следующим образом: Критерий Стьюдента определяется с использованием η : t η = η / m η. V = Если t выч > t табл, то корреляционное отношение признается достоверным.

Изображение слайда
43

Слайд 43

Следует установить, существует ли зависимость между температурой воздуха ( х, о С ) и упругостью водяного пара ( у, мбар ) по шести метеорологическим постам Беларуси исходя из следующих данных : x i 14,7 14,9 15,3 15,6 16,0 16,7 y i 13,3 13,7 14,2 14,5 14,7 14,6

Изображение слайда
44

Слайд 44

Изображение слайда
45

Слайд 45

у i ∑ у i по группам , среднее по группам – М у ( – М у ) 2 у i – М у ( у i – М у ) 2 I группа 13,1 – 1 1 13,7 41,0 13,7 – 0,4 0,16 – 0,4 0,16 14,2 0,1 0,01 II группа 14,5 0,4 0,16 14,7 43,8 14,6 0,5 0,25 0,6 0,36 14,6 0,5 0,25 ∑ 84,8 ∑ 0,1 ∑ 0,41 ∑ 0,02 ∑ 1,94 М у 14,1 Исходные данные по упругости водяного пара

Изображение слайда
46

Слайд 46: Ранговая корреляция

Изображение слайда
47

Слайд 47

Процесс упорядочения вариант по какому-либо признаку (например, увеличение или уменьшение количества населения по районам) называют ранжированием

Изображение слайда
48

Слайд 48

Каждому члену ранжированного ряда присваивается ранг. Для обозначения рангов, как правило, используются числа в пределах единиц и десятков, например: 1, 2, 3,..., n. Первой варианте или группе вариант присваивается ранг 1, второй варианте или группе – 2 и т. д. Следует иметь в виду, что одни и те же варианты в зависимости от цели группировки могут иметь различные ранги.

Изображение слайда
49

Слайд 49

Ранговую корреляцию можно применять для всех упорядоченных признаков (например, экспертные оценки, баллы, бонитеты). Объем сопряженных выборок должен быть не менее пяти. Коэффициент ранговой корреляции характеризуется следующими свойствами:

Изображение слайда
50

Слайд 50

Если ранжированные варианты выборочных совокупностей имеют один и тот же ранг независимо от цели ранжирования, то коэффициент корреляции должен быть равен +1, т.   е. существует полная положительная функциональная зависимость: N 1 1 2 3 4 5 6 7 N 2 1 2 3 4 5 6 7

Изображение слайда
51

Слайд 51

N 1 1 2 3 4 5 6 7 N 2 7 6 5 4 3 2 1 2. Если ранги вариант в сравниваемых рядах выборочных совокупностей расположены в обратной последовательности, то коэффициент корреляции равен –1, т.   е. будет иметь место полная обратная функциональная зависимость:

Изображение слайда
52

Слайд 52

3. В других случаях коэффициент ранговой корреляции имеет значения между +1 и –1, что больше соответствует фактической связи между признаками.

Изображение слайда
53

Слайд 53

Для расчета зависимости ( х, у ) существуют следующие коэффициенты ранговой корреляции: коэффициент неупорядоченности r н коэффициент Спирмена r с.

Изображение слайда
54

Слайд 54

Коэффициент ранговой корреляции Спирмена рассчитать легче, чем коэффициент неупорядоченности, поэтому в естественных науках предпочтение отдается r с. Коэффициент Спирмена представляет собой следующее соотношение : или где d – разность между сопряженными рангами; х ' – величины рангов, заменяющие фактические варианты или качественные признаки по аргументу х; у' – величины рангов, заменяющие фактические варианты или качественные признаки по функции у; N п – количество сопряженных пар

Изображение слайда
55

Слайд 55

Следует дать эстетическую оценку ландшафта для обоснования выбора зоны отдыха. Предложено сравнить пять видов ландшафта (аргумент х ), имеющих свои преимущества с точки зрения чистоты и влажности воздуха, насыщенности полезными фитонцидами, характеризующихся разнообразием рельефа, растительности, наличием рек и водоемов. Исходя из имеющихся показателей расположим виды ландшафта с учетом возрастающей оздоровительной и эстетической их роли ( таблица 1). Соответственно этому видам ландшафта присваиваются ранги по возрастающей величине. Вид ландшафта Ранг х' Самочувствие отдыхающих Ранг у' Плоский пониженный, со смешанным лесом на суглинистых почвах 1 удовлетворительное 1 Слегка волнистый, с ельником на суглинистых почвах 2 удовлетворительное 1 Всхолмленный, с сосново-лиственным лесом и водоемом на песчаных почвах 3 хорошее 3 Пересеченный, с сосновым лесом на песчаных и супесчаных почвах 3 хорошее 3 Слегка пересеченный, с сосново-можжевел­ловым лесом на песчаных и супесчаных почвах 4 отличное 4 Таблица 1 - Оценка ландшафта для рекреационной цели

Изображение слайда
56

Слайд 56

Для получения необходимых показателей при расчете рангового коэффициента корреляции составляем таблицу 2. Вычисляем разность между парными рангами ( х' – у' ), которые возводим в квадрат и суммируем. Результаты используются для расчета рангового коэффициента корреляции по формуле. х' у' х'–у' (х'–у') 2 1 1 0 0 2 1 1 1 3 3 0 0 3 3 0 0 4 4 0 0 Σ 1 Расчет рангового коэффициента корреляции

Изображение слайда
57

Слайд 57: Для ранговой корреляции также вычисляются:

d ху = r 2 • 100%. V =

Изображение слайда
58

Последний слайд презентации: Корреляционный анализ

Спасибо за внимание!!!

Изображение слайда