Презентация на тему: БМС –Биомедстатистика. Гармонизация статистических доказательств и предсказаний

БМС –Биомедстатистика. Гармонизация статистических доказательств и предсказаний
БМС –Биомедстатистика. Гармонизация статистических доказательств и предсказаний
Интерфероны и диагностика ЗВУР - задержки внутриутробного развития
ЗВУР
Содержание INF- α / β у 16 здоровых матерей здоровых детей и у 20 матерей доношенных новорожденных с ЗВУР (Королева Л.И.)
Гистограмма
Сопоставление гистограмм содержания INF- α / β у здоровых матерей здоровых детей и матерей доношенных новорожденных с ЗВУР
Гистограммы содержания INF- α / β у здоровых матерей здоровых детей и матерей доношенных новорожденных с ЗВУР. Программа PAST (URL:
Нормальные вероятностные графики
Проверка нормальности (гауссовости) распределения у матерей здоровых детей и детей с ЗВУР
Диаграммы «короб с усами» для данных об уровне индуцированной продукции IFN ‑  /  у здоровых матерей здоровых детей и у матерей доношенных новорожденных с
Исключение резко выделяющихся наблюдений
Резко выделяющиеся значения – «выбросы»
Сжатие (свертка, редукция) статистических данных
Основная логика статистического оценивания: интервальные оценки
Статистические гипотезы
Проверяемая гипотеза
Использование доверительных интервалов (ДИ) для проверки нулевых гипотез
Визуализация результатов проверки статистических гипотез с помощью доверительных интервалов для размера эффекта
Графическое представление результатов статистического сравнения групп матерей здоровых детей и детей с ЗВУР, 1- α = 0,9 9. Программа ESCI JSMS.xls
Статистики критериев (тестовые статистики)
Проблема Беренса-Фишера
БМС –Биомедстатистика. Гармонизация статистических доказательств и предсказаний
Р -значение
Р -значение
P -значение есть вероятность наблюдать исход ( x ), плюс все «еще более экстремальные исходы». Они представлены затушеванной областью хвоста распределения,
Односторонние Р -значения
Двухстороннее Р -значение
БМС –Биомедстатистика. Гармонизация статистических доказательств и предсказаний
Выбор порога для значени я P, и можно ли его обосновать?
Традиционная интерпретация значений P ( шкала Michelin)
Глотов Н.В., Животовский Л.А., Хованов Н.В., Хромов-Борисов Н.Н. Биометрия, Л.: Изд-во ЛГУ, 1982. – 264 с.
[0,05; 0,01] – «серая зона»
«Фильтруйте базар»: Sterne J.A.C., Davey Smith G. Sifting the evidence – what’s wrong with significance tests? BMJ, 2001. – Vol. 322. – P. 227-231.
БМС –Биомедстатистика. Гармонизация статистических доказательств и предсказаний
Sir Ronald Aylmer Fisher 17.02. 1890 – 29.07. 1962
Пожелание: « г ибкие» P -значения
Результаты статистического сравнение групп матерей здоровых детей и детей с ЗВУР, 1- α = 0,9 9. Программа ESCI JSMS.xls http://www.latrobe.edu.au/psy/esci/
Акт интеллектуальной смелости
Распространенный соблазн
Распространенное заблуждение
БМС –Биомедстатистика. Гармонизация статистических доказательств и предсказаний
«Цена» значения P
Бейзовская интерпретация значения P
Привычка свыше нам дана
Статистическая значимость и размер эффекта
Размер эффекта
Стандартизированный размер эффекта по Коуэну (Cohen) d C
Интерпретация стандартизированного размера эффекта d C http://www.sportsci.org/resource/stats/
Результаты статистического сравнения групп матерей здоровых детей и детей с ЗВУР, (1 - α ) = 0,9 9. Программа ESCI JSMS.xls http://www.latrobe.edu.au/psy/esci/
Непараметрическая оценка d C
Бейзов фактор, BF
Интерпретация убедительности Бейзовых факторов, BF 10 и BF 0 1
Бейзов фактор, программа Bayes Factor Calculators http://pcl.missouri.edu/bayesfactor
Вывод результатов (output)
БМС –Биомедстатистика. Гармонизация статистических доказательств и предсказаний
Статистические предсказания и воспроизводимость
Значение вероятностной P -величины
БМС –Биомедстатистика. Гармонизация статистических доказательств и предсказаний
Доверяя, повторяй
Воспроизводимость и предсказания абсолютного размера эффекта для групп матерей здоровых детей и детей с ЗВУР. Программа LePrep
Воспроизводимость и предсказания стандартизированного размера эффекта по Ко у эну (Cohen) d C
Воспроизводимость и предсказания размеров эффекта ES и d C для групп матерей здоровых детей и детей с ЗВУР
Ошибки I и II рода и мощность статистического критерия
БМС –Биомедстатистика. Гармонизация статистических доказательств и предсказаний
Судебные ошибки
Диагностика
Теория Неймана-Пирсона: Ошибки I и II рода и мощность критерия
Ошибки I и II рода
Ошибки I и II рода
Компромисс
Мощность статистического критерия
БМС –Биомедстатистика. Гармонизация статистических доказательств и предсказаний
Анализ мощности a priori или post-hoc
Оценка достигнутой мощности (post hoc). Программа G*Power http://www.psycho.uni-duesseldorf.de/aap/projects/gpower/
Элементы планирования эксперимента
Программа G*Power http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3
Оценка необходимых объемов выборок (a priori)
Научный метод
Культ одиночного изолированного исследования
Джон Уайлдер Тьюки  ( John Wilder Tukey, 16.04.1915 — 26.07.2000)
Спасибо за внимание! Слайды доступны для всех
1/82
Средняя оценка: 4.7/5 (всего оценок: 65)
Код скопирован в буфер обмена
Скачать (2707 Кб)
1

Первый слайд презентации: БМС –Биомедстатистика. Гармонизация статистических доказательств и предсказаний

1 БМС –Биомедстатистика. Гармонизация статистических доказательств и предсказаний Никита Николаевич Хромов-Борисов Тишков Артем Валерьевич Кафедра физики, математики и информатики ПСПбГМУ им. акад. И.П. Павлова 1

Изображение слайда
2

Слайд 2

2 Эпидемиологи смотрят на мир сквозь решетку таблицы 2×2. При этом надо помнить, что результат обследования является бинарным (дихотомическим): либо положительным, либо отрицательным, т.е. без промежуточных градаций. Дихотомическое деление привлекательно своей простотой. Однако т акое упрощение является серьезным ограничением, поскольку результаты подобных обследований зачастую являются мерными.

Изображение слайда
3

Слайд 3: Интерфероны и диагностика ЗВУР - задержки внутриутробного развития

3 Интерфероны и диагностика ЗВУР - задержки внутриутробного развития Королева Людмила Илларионовна, НИИ АГ им.Д.О.Отта

Изображение слайда
4

Слайд 4: ЗВУР

4 ЗВУР Термин  задержка внутриутробного развития плода (ЗВУР) используется для описания плода, масса которого гораздо меньше ожидаемой для данного гестационного возраста. Согласно последним отечественным данным частота (распространенность) ЗВУР находится в пределах 3,5 – 8,5%. Плод с задержкой внутриутробного развития  подвержен повышенному риску внутриутробной гибели или неонатальной смерти, асфиксии до или во время родов.

Изображение слайда
5

Слайд 5: Содержание INF- α / β у 16 здоровых матерей здоровых детей и у 20 матерей доношенных новорожденных с ЗВУР (Королева Л.И.)

5 Содержание INF- α / β у 16 здоровых матерей здоровых детей и у 20 матерей доношенных новорожденных с ЗВУР (Королева Л.И.) Здоровые ЗВУР № IFN- α / β, МЕ / мл № IFN- α / β, МЕ / мл № IFN- α / β, МЕ / мл № IFN- α / β, МЕ / мл 1 38 9 92 1 104 11 144 2 42 10 93 2 121 12 146 3 58 11 94 3 123 13 147 4 59 12 101 4 123 14 149 5 70 13 103 5 127 15 151 6 71 14 115 6 130 16 153 7 81 15 159 7 132 17 162 8 86 16 170 8 134 18 168 9 134 19 171 10 140 20 173

Изображение слайда
6

Слайд 6: Гистограмма

6 Гистограмма Гистограмма (от др.-греч. ἱστός — столб + γράμμα — черта, буква, написание) — столбиковая диаграмма — способ графического представления табличных данных.

Изображение слайда
7

Слайд 7: Сопоставление гистограмм содержания INF- α / β у здоровых матерей здоровых детей и матерей доношенных новорожденных с ЗВУР

7 Сопоставление гистограмм содержания INF- α / β у здоровых матерей здоровых детей и матерей доношенных новорожденных с ЗВУР

Изображение слайда
8

Слайд 8: Гистограммы содержания INF- α / β у здоровых матерей здоровых детей и матерей доношенных новорожденных с ЗВУР. Программа PAST (URL: http://folk.uio.no/ohammer/past/ )

8 Гистограммы содержания INF- α / β у здоровых матерей здоровых детей и матерей доношенных новорожденных с ЗВУР. Программа PAST (URL: http://folk.uio.no/ohammer/past/ ) Здоровые ЗВУР

Изображение слайда
9

Слайд 9: Нормальные вероятностные графики

9 Нормальные вероятностные графики Здоровые ЗВУР

Изображение слайда
10

Слайд 10: Проверка нормальности (гауссовости) распределения у матерей здоровых детей и детей с ЗВУР

10 Проверка нормальности (гауссовости) распределения у матерей здоровых детей и детей с ЗВУР Статистический критерий Наблюдаемые Р -значения, P val Здоровые ЗВУР Андерсона-Дарлинга 0,25 0,15 Шапиро-Уилка 0,19 0,21 Коэффициента асимметрии 0,059 0,46 Коэффициент эксцесса 0,23 0,34 Жарка-Бера 0,42 0,14 Гири 0,1 7 0,26 Д'Агостино 0,06 8 0,45 Эппса-Палли 0,17 0,048 Все Р -значения превышают пороговое значение 0,05 или почти равны ему. Следовательно у нас нет оснований сомневаться в гипотезе о нормальности распределения, порождающего наблюдаемые данные.

Изображение слайда
11

Слайд 11: Диаграммы «короб с усами» для данных об уровне индуцированной продукции IFN ‑  /  у здоровых матерей здоровых детей и у матерей доношенных новорожденных с ЗВУР. Программа Instat+ (URL: http://www.reading.ac.uk/ssc/n/n instat.htm )

11

Изображение слайда
12

Слайд 12: Исключение резко выделяющихся наблюдений

С рекомендаций по отбрасыванию выскакивающих (экстремальных) наблюдений («выбросов», «засорений») начинаются многие руководства по прикладной статистике. Очень часто авторы и (или) пользователи забывают, что большинство таких процедур предназначено для отбрасывания одного и только одного такого значения. Тем не менее, можно найти тексты, в которых, скажем, из 6-и наблюдений отбрасываются три. Это совершенно недопустимо. 12

Изображение слайда
13

Слайд 13: Резко выделяющиеся значения – «выбросы»

13 Резко выделяющиеся значения – «выбросы» Выскакивающие значения можно и нужно выявлять. Но отбрасывать их следует на основе внестатистических соображений. Например, если записано значение для артериального давления 1100, то очевидно, что здесь опечатка: лишняя 1 или лишний 0. 13

Изображение слайда
14

Слайд 14: Сжатие (свертка, редукция) статистических данных

14 Сжатие (свертка, редукция) статистических данных Статистика – любая функция от случайных величин, порождающих получаемые статистические данные. Простейший пример - выборочное среднее: 14

Изображение слайда
15

Слайд 15: Основная логика статистического оценивания: интервальные оценки

15 Основная логика статистического оценивания: интервальные оценки Понятно, что если мы многократно повторим эксперимент, то вычисленные средние значения неизбежно будут варьировать. Поэтому задача математиков – вывести математический закон (вероятностное распределение), которому подчиняется варьирование этих выборочных средних. Если такой закон найден, то тогда можно построить доверительные интервалы (ДИ) для оцениваемого среднего с заданной доверительной вероятностью (1 – α ).

Изображение слайда
16

Слайд 16: Статистические гипотезы

16 Статистические гипотезы В обычном языке слово «гипотеза» означает предположение. В том же смысле оно употребляется и в научном языке для предположений, которые подлежат экспериментальной проверке, в ходе которой гипотеза либо подтверждается, либо опровергается. В математической статистике, термин «гипотеза» означает предположение о тех или иных свойствах распределений, которые служат моделями для получаемых данных. Проверка статистической гипотезы состоит в выяснении того, насколько совместима эта гипотеза с имеющимися данными.

Изображение слайда
17

Слайд 17: Проверяемая гипотеза

17 Проверяемая гипотеза В подавляющем большинстве реальных ситуаций проверяемая статистическая гипотеза является гипотезой об отсутствии того или иного эффекта: об отсутствии различий, например, о равенстве средних, т.е. о равенстве нулю разности средних; об отсутствии связей, соответствий, зависимостей и т.п. Поэтому проверяемую гипотезу принято назвать нулевой и обозначать символом H 0.

Изображение слайда
18

Слайд 18: Использование доверительных интервалов (ДИ) для проверки нулевых гипотез

18 Использование доверительных интервалов (ДИ) для проверки нулевых гипотез Например, для проверки нулевой гипотезы о равенстве двух средних: H 0 : M 1 – M 2 = 0 можно построить ДИ для разности средних. Тогда, если вычисленный 100(1 – α )%- й ДИ не накрывает постулируемое этой гипотезой значение 0, то отклонение оцениваемой разности от 0 можно признать статистически значимым на заранее выбранном уровне значимости α.

Изображение слайда
19

Слайд 19: Визуализация результатов проверки статистических гипотез с помощью доверительных интервалов для размера эффекта

19 Визуализация результатов проверки статистических гипотез с помощью доверительных интервалов для размера эффекта 19

Изображение слайда
20

Слайд 20: Графическое представление результатов статистического сравнения групп матерей здоровых детей и детей с ЗВУР, 1- α = 0,9 9. Программа ESCI JSMS.xls http://www.latrobe.edu.au/psy/esci/

20 Графическое представление результатов статистического сравнения групп матерей здоровых детей и детей с ЗВУР, 1- α = 0,9 9. Программа ESCI JSMS.xls http://www.latrobe.edu.au/psy/esci/ 99%-й ДИ для разности средних не накрывает значение 0. Следовательно оцениваемое этим интервалом неизвестное нам значение разности средних статистически значимо отличается от 0 на уровне значимости 0,01. Соответственно мы можем взять на себя смелость отклонить нулевую гипотезу о равенстве средних и принять альтернативную.

Изображение слайда
21

Слайд 21: Статистики критериев (тестовые статистики)

21 Статистики критериев (тестовые статистики) Тестовая статистика – статистика, используемая для проверки конкретной статистической гипотезы. Пример: статистика t -критерия Стьюдента В этом случае проверка гипотезы H 0 о равенстве двух средних: H 0 : M 1 – M 2 = 0 сводится к проверке гипотезы о том, что t = 0. Когда эта нулевая гипотеза верна, то распределение этой статистики известно – это t - распределение Стьюдента с параметром (числом степеней свободы), равным df. 21

Изображение слайда
22

Слайд 22: Проблема Беренса-Фишера

Если дисперсии сравниваемых двух независимых случайных величин не равны, то, то следует использовать модификацию t - критерия Стьюдента, которая называется критерием Уэлча: 22

Изображение слайда
23

Слайд 23

Статистика Уэлча приближенно имеет t - распределение Стьюдента, но с параметром ν W, который задается выражением: где 23

Изображение слайда
24

Слайд 24: Р -значение

24 Р -значение

Изображение слайда
25

Слайд 25: Р -значение

25 Р -значение Для проверки нулевых гипотез с помощью статистических критериев основным приемом является вычисление значения вероятности, которое называется Р -значением. P - значение есть условная вероятность, а именно: Вероятность получить наблюдаемое значение t набл. статистики некоего критерия T и все остальные еще менее вероятные значения этой статистики (или значения, еще более отклоняющиеся от ожидаемых) ПРИ УСЛОВИИ, что верна нулевая гипотеза H 0 : P val = Pr{ | T | ≥ | t набл. | | H 0 }. Тут следует обратить внимание на то, что «еще менее вероятные данные» не являются «данными», мы их не наблюдаем. Мы их додумываем из всех возможных значений статистики критерия T в рамках выбранной нами (нулевой) модели. 25

Изображение слайда
26

Слайд 26: P -значение есть вероятность наблюдать исход ( x ), плюс все «еще более экстремальные исходы». Они представлены затушеванной областью хвоста распределения, соответствующего нулевой модели

Goodman S. A Dirty Dozen: Twelve P-Value Misconceptions. Semin. Hematol., 2008. – Vol. 45. – P. 135-140. 26

Изображение слайда
27

Слайд 27: Односторонние Р -значения

27

Изображение слайда
28

Слайд 28: Двухстороннее Р -значение

28

Изображение слайда
29

Слайд 29

29 Основная логика использования наблюдаемого значения величины P состоит в том, что если оно мал ó, то считается, что малоправдоподобно получить имеющиеся данные при условии, что справедлива нулевая гипотеза. Как следствие делается вывод, что в таком случае малоправдоподобна и сама нулевая гипотеза. Это считается достаточным аргументом для того, чтобы отклонить Н 0 и принять альтернативную гипотезу Н 1.

Изображение слайда
30

Слайд 30: Выбор порога для значени я P, и можно ли его обосновать?

30 Выбор порога для значени я P, и можно ли его обосновать? Когда наблюдаемое значение P мало, то появляется соблазн отвергнуть H 0. Однако нет никаких статистических соображений, какое значение P следует считать настолько малым, чтобы смело от клонить H 0. Это решение является внестатистическим. На практике решение от клонить или принять H 0 должно зависеть от обстоятельств. Исследователь в каждой конкретной ситуации должен сам с делать этот выбор. 30

Изображение слайда
31

Слайд 31: Традиционная интерпретация значений P ( шкала Michelin)

31 Традиционная интерпретация значений P ( шкала Michelin) P начение P Статистическая значимость Шкала Мишлена > 0,05 Незначимо 0,05 – 0,01 Умеренно значимо * 0,01 – 0,001 Значимо ** < 0,001 Высоко значимо *** 31

Изображение слайда
32

Слайд 32: Глотов Н.В., Животовский Л.А., Хованов Н.В., Хромов-Борисов Н.Н. Биометрия, Л.: Изд-во ЛГУ, 1982. – 264 с

32 Глотов Н.В., Животовский Л.А., Хованов Н.В., Хромов-Борисов Н.Н. Биометрия, Л.: Изд-во ЛГУ, 1982. – 264 с. Выбор уровня значимости определяется важностью биологических выводов, которые должен сделать экспериментатор. В настоящее время многие биометрики склоняются к следующему правилу: а) если P > 0,05, то принимается нулевая гипотеза; б) если P < 0,01, то нулевая гипотеза отклоняется и принимается конкурирующая; в) если 0,01 < P < 0,05, то результат считается неопределенным. 32

Изображение слайда
33

Слайд 33: [0,05; 0,01] – «серая зона»

33 [0,05; 0,01] – «серая зона» Значение P Статистическая значимость Шкала Мишлена > 0,05 Незначимо От 0,05 до 0,01 Неопределенно * От 0,01 до 0,001 Значимо ** < 0,001 Высоко значимо *** 33

Изображение слайда
34

Слайд 34: Фильтруйте базар»: Sterne J.A.C., Davey Smith G. Sifting the evidence – what’s wrong with significance tests? BMJ, 2001. – Vol. 322. – P. 227-231

34 «Фильтруйте базар»: Sterne J.A.C., Davey Smith G. Sifting the evidence – what’s wrong with significance tests? BMJ, 2001. – Vol. 322. – P. 227-231. З начение P близкое к 0,05 не является сильным свидетельством против нулевой гипотезы. Сильными свидетельствами против Н 0 следует признавать значения P < 0,001. В публикациях надо представлять точные значения P без соотнесения их с какими-либо пороговыми ( критическими ) значениями ( типа P < 0,05). Наравне с о значениями P (или даже вместо них) следует указывать доверительные интервалы. 34

Изображение слайда
35

Слайд 35

35 В модных ныне изысканиях различного рода генетических предрасположенностей, когда проверяются миллионы аллелей различных генов, исследователи ориентируются на значения P порядка 10 -7. При таком уровне значимости приходится обследовать сотни тысяч людей. Но даже при столь суровой требовательности результаты далеко не всегда воспроизводятся в повторных проверочных исследованиях.

Изображение слайда
36

Слайд 36: Sir Ronald Aylmer Fisher 17.02. 1890 – 29.07. 1962

36 Sir Ronald Aylmer Fisher 17.02. 1890 – 29.07. 1962 36

Изображение слайда
37

Слайд 37: Пожелание: « г ибкие» P -значения

37 Пожелание: « г ибкие» P -значения « В действительности ни один исследователь не пользуется фиксированным уровнем значимости с которым из года в год и при любых обстоятельствах он отвергает нулевые гипотезы. Он больше доверяет своему уму и каждый конкретный случай рассматривает в свете совокупности имеющихся доказательств и своих идей и представлений ». R. A. Fisher R. A. Statistical Methods and Scientific Inference, 1956 37

Изображение слайда
38

Слайд 38: Результаты статистического сравнение групп матерей здоровых детей и детей с ЗВУР, 1- α = 0,9 9. Программа ESCI JSMS.xls http://www.latrobe.edu.au/psy/esci/

В данном случае P val = 3,0E-06  3∙10 -6. Вывод: различие в содержании IFN- α / β у матерей здоровых детей и детей с ЗВУР статистически высоко значимо; во второй группе оно выше, чем в первой. 38

Изображение слайда
39

Слайд 39: Акт интеллектуальной смелости

39 Акт интеллектуальной смелости Когда значение P очень мало, мы берем на себя смелость отклонить нулевую гипотезу (и принять альтернативную). Всякий раз, принимая решение отклонить или принять нулевую гипотезу, мы совершаем акт интеллектуальной смелости. И этот акт является внестатистическим. 39

Изображение слайда
40

Слайд 40: Распространенный соблазн

40 Распространенный соблазн Квинтэссенцию традиционных (частотнических) заключений при проверке статистических гипотез принято интерпретировать так: чем меньше значение P, тем весомее доводы против нулевой гипотезы H 0, которые предоставляют нам имеющиеся данные; тем больше у нас оснований сомневаться в H 0. Отсюда невольно (и вроде бы естественно) возникает соблазн интерпретировать значение P как вероятность нулевой гипотезы. 40

Изображение слайда
41

Слайд 41: Распространенное заблуждение

41 Распространенное заблуждение З начение P не есть вероятность нулевой гипотезы ! Поскольку P- значение вычисляется при условии, что справедлива нулевая гипотеза H 0 : P val = Pr{| T | ≥ | t набл. | | H 0 }, то оно никак не может быть вероятностью нулевой гипотезы: P { t | H 0 } ≠ P { H 0 | t } 41

Изображение слайда
42

Слайд 42

Р -значение потому столь привлекательно для ученых, что с ним очень легко получить «значимый» («достоверный») результат, даже когда на самом деле эффекта нет.

Изображение слайда
43

Слайд 43: Цена» значения P

43 «Цена» значения P значение P Нижняя граница для вероятности нулевой гипотезы P ( H 0 ) Верхняя граница для вероятности воспроизведения Р repr 0,05 > 30% < 50% 0,01 > 10% < 7 3 % 0,001 > 2% < 90% Для наглядности значения в таблице округлены до первой значащей цифры. Более точно значения для P ( H 0 ) (сверху вниз) равны 29%, 11% и 1,8%. Posavac E.J. Using p values to estimate the probability of statistically significant replication // Understanding Statistics, 2002. – Vol. 1. – No. 2. – P. 101-112. 43

Изображение слайда
44

Слайд 44: Бейзовская интерпретация значения P

44 Бейзовская интерпретация значения P Обычно принято интерпретировать значения P как меру доказательства, предоставляемого имеющимися данными, против нулевой гипотезы. Однако с точки зрения бейзовской статистики значение P есть всего лишь вероятность того, что при повторении эксперимента будет получена разность средних с противоположным знаком. При такой интерпретации понятно, что значение P ничего не говорит ни о вероятности нулевой гипотезы P { H 0 | t }, ни о размере эффекта, в данном случае о разности средних.

Изображение слайда
45

Слайд 45: Привычка свыше нам дана

45 Привычка свыше нам дана Это прекрасно понимал Р.А. Фишер: «Критерий значимости не позволяет нам делать какие-либо выводы о проверяемой гипотезе в терминах математической вероятности» ( Fisher R.A. The design of experiments. Edinburgh: Oliver & Boyd, 1935 ). Тем не менее многие исследователи (авторы) имеют дурную привычку обращать внимание исключительно на значение P, игнорируя практическую (клиническую) важность полученных ими результатов, игнорируя размер эффекта. 45

Изображение слайда
46

Слайд 46: Статистическая значимость и размер эффекта

46 Статистическая значимость и размер эффекта Эффект ( различие, связь, риск, польза, ассоциация и т. п.) может быть статистически значимым, но его практическая ( например, клиническая ) ценность может оказаться ничтожной. « Статистически значимый » не означает « значительный », «практически важный», «ценный». Эффекты могут быть р еальны ми, неслучайны ми, но практически пренебрежимо мал ым и. 46

Изображение слайда
47

Слайд 47: Размер эффекта

47 Размер эффекта Вопрос о клинической (практической) ценности (важности) наблюдаемого размера эффекта является ключевым при интерпретации результатов биомедицинских исследований, таких как диагностические исследования, клинические испытания и т.п. Размер эффекта можно выражать в реальных единицах, а можно сделать его безразмерным – Стандартизированным. 47

Изображение слайда
48

Слайд 48: Стандартизированный размер эффекта по Коуэну (Cohen) d C

48 Стандартизированный размер эффекта по Коуэну (Cohen) d C 48

Изображение слайда
49

Слайд 49: Интерпретация стандартизированного размера эффекта d C http://www.sportsci.org/resource/stats/

49 Интерпретация стандартизированного размера эффекта d C http://www.sportsci.org/resource/stats/ Размер эффекта, d C Градация эффекта 0 – 0,2 Ничтожный 0,2 – 0,5 Малый 0,5 – 1,0 Умеренный 1,0 – 2,0 Большой 2,0 – 4,0 Очень большой 4,0 -  Исключительно большой 49

Изображение слайда
50

Слайд 50: Результаты статистического сравнения групп матерей здоровых детей и детей с ЗВУР, (1 - α ) = 0,9 9. Программа ESCI JSMS.xls http://www.latrobe.edu.au/psy/esci/

50 Результаты статистического сравнения групп матерей здоровых детей и детей с ЗВУР, (1 - α ) = 0,9 9. Программа ESCI JSMS.xls http://www.latrobe.edu.au/psy/esci/ В данном примере абсолютный размер эффекта ES есть попросту разность средних: ES = M 2 – M 1 = 26,6 52,1 77,6 у.е. Стандартизированный размер эффекта по Коуэну : d C = 1,87 Его можно интерпретировать как сильный (большой).

Изображение слайда
51

Слайд 51: Непараметрическая оценка d C

95%- й ДИ: 0,8 1,7 2,5 9 9 %- й ДИ: 0,6 1,7 2,6 9 9,9 %- й ДИ: 0,3 1,7 2,8 51

Изображение слайда
52

Слайд 52: Бейзов фактор, BF

52 Бейзов фактор, BF Бейзов фактор BF принципиально отличается от значения P. Бейзов фактор не является вероятностью сам по себе, а является отношением вероятностей, и он может варьироваться от нуля до бесконечности. Он требует знания двух гипотез, тем самым четко указывая, что если есть свидетельства против нулевой гипотезы, то должны существовать свидетельства и в пользу альтернативной гипотезы. BF 01 = P ( D | H 0 ) / P ( D | H 1 ) BF 10 = 1 / BF 01 = P ( D | H 1 ) / P ( D | H 0 )

Изображение слайда
53

Слайд 53: Интерпретация убедительности Бейзовых факторов, BF 10 и BF 0 1

BF 0 1 Свидетельство в пользу гипотезы Н 0 против гипотезы Н 1 >100 Убедительное 30 – 100 Очень сильное 10 – 30 Сильное 3 – 10 Умеренное (слабое) 1 – 3 Пренебрежимо малое BF 10 Свидетельство в пользу гипотезы Н 1 против гипотезы Н 0 53

Изображение слайда
54

Слайд 54: Бейзов фактор, программа Bayes Factor Calculators http://pcl.missouri.edu/bayesfactor

54 Бейзов фактор, программа Bayes Factor Calculators http://pcl.missouri.edu/bayesfactor 54

Изображение слайда
55

Слайд 55: Вывод результатов (output)

55 Вывод результатов (output) В 5555 раз (1 /0,00018) более правдоподобно получить наблюдаемое различие ( ES = 52,1 у.е. ) между сравниваемыми группами при условии, что верна гипотеза H 1 : ES  0, нежели при условии, что верна гипотеза H 0 : ES = 0. Такое значение BF 01 принято интерпретировать как чрезвычайно убедительное свидетельство против нулевой гипотезы H 0 : ES = 0 в пользу альтернативной гипотезы H 1 : ES  0. 55

Изображение слайда
56

Слайд 56

Достаточно малое значение P заставляет думать, что произошло нечто неожиданное. И обычно это интерпретируется как неверность нулевой гипотезы. Однако, если для этих же данных бейзов фактор BF 01 не мал, то причину таких неожиданностей следует искать не в том, что неверна научная нулевая гипотеза. Возможны иные причины этого, такие как экспериментальное смещение или неверная модель. Для исследования иных причин, нужны другие альтернативные гипотезы.

Изображение слайда
57

Слайд 57: Статистические предсказания и воспроизводимость

57 Статистические предсказания и воспроизводимость 57

Изображение слайда
58

Слайд 58: Значение вероятностной P -величины

58 Значение вероятностной P -величины Значение P есть наблюдаемое значение (реализация) соответствующей случайной величины Всякий раз мы наблюдаем одно из ее возможных значений. Когда H 0 верна, то P val имеет непрерывное равномерное распределение на отрезке [0; 1]. 58

Изображение слайда
59

Слайд 59

59 Отсюда следует, что, строго говоря, на основе всего лишь одного изолированного исследования нельзя делать определенные выводы. Любое научное исследование должно повторяться многократно, и должна исследоваться воспроизводимость результатов. 59

Изображение слайда
60

Слайд 60: Доверяя, повторяй

60 Доверяя, повторяй Часто считается, что если получен «статистически значимый» результат, то это исключает необходимость повторить исследование. Повторность (воспроизведение) часто рассматривается как нечто суетное и мирское. «Проверка нулевой гипотезы есть метод обнаружения маловероятных событий, которые заслуживают дальнейшего изучения» ( Fisher). 60

Изображение слайда
61

Слайд 61: Воспроизводимость и предсказания абсолютного размера эффекта для групп матерей здоровых детей и детей с ЗВУР. Программа LePrep http://www.univ-rouen.fr/LMRS/Persopage/Lecoutre/PAC.htm

61 Воспроизводимость и предсказания абсолютного размера эффекта для групп матерей здоровых детей и детей с ЗВУР. Программа LePrep http://www.univ-rouen.fr/LMRS/Persopage/Lecoutre/PAC.htm 61

Изображение слайда
62

Слайд 62: Воспроизводимость и предсказания стандартизированного размера эффекта по Ко у эну (Cohen) d C

62 Воспроизводимость и предсказания стандартизированного размера эффекта по Ко у эну (Cohen) d C 62

Изображение слайда
63

Слайд 63: Воспроизводимость и предсказания размеров эффекта ES и d C для групп матерей здоровых детей и детей с ЗВУР

63 Воспроизводимость и предсказания размеров эффекта ES и d C для групп матерей здоровых детей и детей с ЗВУР Показатель ES d C 99%-е предсказательные интервалы (ПИ) для размеров эффекта [16,1; 88,1] [ 0,50 ; 3,63] 99%-й предсказательный интервал (ПИ) для P val [7∙10 -13 ; 0,071 ] P srep - вероятность во с произведения эффекта с тем же зн а ком и значимого на уровне α = 0,01 0, 96 При независимом повторении эксперимента эффект может не воспроизвестись и оказаться статистически незначимым (нижняя граница 99%- го ПИ для P val = 0,071 > 0,05 ) и размер эффекта по Коуэну может оказаться малым, достигая нижней границы 99%-го ПИ для него: 0,5.

Изображение слайда
64

Слайд 64: Ошибки I и II рода и мощность статистического критерия

64 Ошибки I и II рода и мощность статистического критерия 64

Изображение слайда
65

Слайд 65

Истинный позитив, верна H 1 Истинный негатив, верна H 0 Ложный позитив, ошибка I рода, ложная тревога Ложный негатив, ошибка II рода, халатная беспечность H 1 : есть беременность; H 0 : нет беременности 65

Изображение слайда
66

Слайд 66: Судебные ошибки

Вердикт: подозреваемый Действительность: подозреваемый H 1 : виновен H 0 : невиновен Виновен Верное решение Неверное решение (Ошибка  первого  рода, ложное осуждение ) Невиновен Неверное решение (Ошибка  второго рода, ложное оправдание ) Верное решение 66

Изображение слайда
67

Слайд 67: Диагностика

67 Диагностика Отрица - тельный Положи-тельный Нет болезни (D = 0)  Специфичность X Ложный ( + ) Есть болезнь (D = 1) X Ложный ( -)  Чувствительность Болезнь Тест 67

Изображение слайда
68

Слайд 68: Теория Неймана-Пирсона: Ошибки I и II рода и мощность критерия

68 Теория Неймана-Пирсона: Ошибки I и II рода и мощность критерия H 0 не отклонена H 0 отклонена Верна H o, нет различия (D = 0)  Верное решение X Ошибка I рода с вероятностью  Верна H 1, есть различие (D  0 ) X Ошибка II рода с вероятностью   Мощность 1 -  ; Верное решение Действи-тельность Критерий 68

Изображение слайда
69

Слайд 69: Ошибки I и II рода

Ошибка I рода : отклонение верной нулевой гипотезы; Аналитик решает (берет на себя смелость) отклонить нулевую гипотезу, когда в действительности она верна. Вероятность ошибки I рода традиционно обозначается α. Ошибка II рода : принятие неверной (ложной) нулевой гипотезы; Аналитик решает (берет на себя смелость) принять нулевую гипотезу, когда в действительности она неверна. Вероятность ошибки II рода традиционно обозначается β. 69

Изображение слайда
70

Слайд 70: Ошибки I и II рода

Результат  применения статистического критерия Верная гипотеза H 1 H 0 Решено принять H 1   и отклонить H 0 H 1   верно принята H 0  верно отклонена Вероятность (1 – β ) – мощность H 1 неверно принята H 0  неверно отклонена,   (Ошибка  первого  рода, ложная тревога) Вероятность α – уровень значимости Решено принять H 0 и отклонить H 1 H 0 неверно принята H 1  неверно отклонена, (Ошибка  второго   рода,недостаточная бдительность ) Вероятность β H 0   верно принята, H 1  верно отклонена Вероятность (1 – α ) 70

Изображение слайда
71

Слайд 71: Компромисс

71 Компромисс Например, в случае металлодетектора повышение чувствительности прибора приведёт к увеличению риска  ошибки первого рода  (ложная тревога), а понижение чувствительности - к увеличению риска  ошибки второго рода  (пропуск запрещённого предмета). 71

Изображение слайда
72

Слайд 72: Мощность статистического критерия

72 Мощность статистического критерия Мощность статистического критерия есть вероятность того, что критерий правильно отклонит ложную нулевую гипотезу (правильно примет верную альтернативную гипотезу). Традиционно ее обозначают (1 – β ), где β - вероятность ошибки II рода. Чем больше мощность критерия, тем меньше вероятность совершить ошибку II рода. Мощность статистического критерия измеряет способность критерия выявлять истинные различия (эффекты). Ее можно интерпретировать как чувствительность статистического критерия к отклонениям от условий нулевой гипотезы. 72

Изображение слайда
73

Слайд 73

Мощность отвечает на вопрос: Если эффект (определенного размера) действительно существует, то какова вероятность того, что эксперимент с выборкой определенного размера даст «статистически значимый» результат? 73

Изображение слайда
74

Слайд 74: Анализ мощности a priori или post-hoc

74 Анализ мощности a priori или post-hoc Анализ мощности можно проводить либо a priori, т.е. до получения данных, либо post hoc, т.е. после получения данных. A priori   анализ мощности обычно используется для оценки объема выборки N, необходимого для достижения приемлемой мощности. Post hoc   анализ мощности используется для оценки достигнутой мощности. В этом случае предполагается, что наблюдаемый эффект и его варьирование равны истинным значениям параметров. 74

Изображение слайда
75

Слайд 75: Оценка достигнутой мощности (post hoc). Программа G*Power http://www.psycho.uni-duesseldorf.de/aap/projects/gpower/

75 Оценка достигнутой мощности (post hoc). Программа G*Power http://www.psycho.uni-duesseldorf.de/aap/projects/gpower/ Достигнутая мощность проведенного исследования составила (1 – β ) = 0,9967 75

Изображение слайда
76

Слайд 76: Элементы планирования эксперимента

76 Элементы планирования эксперимента 76

Изображение слайда
77

Слайд 77: Программа G*Power http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3

77 Программа G*Power http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3 Оценка a priori минимально необходимого объема выборки N для достижения статистически значимого отличия наблюдаемой доли от ожидаемого значения при заданных уровне значимости α и мощности (1 – β ). 77

Изображение слайда
78

Слайд 78: Оценка необходимых объемов выборок (a priori)

78 Оценка необходимых объемов выборок (a priori) 78 Для достижения приемлемой статистической мощности (1 – β ) = 0,95 достаточно было иметь группы по 12 человек.

Изображение слайда
79

Слайд 79: Научный метод

79 Научный метод Ни один уважающий себя ученый не ограничится в своих исследованиях одним-единственным экспериментом, хотя бы ради того, чтобы исключить неизбежные ошибки наблюдения, измерений, подсчетов и т. д. Законы Менделя стали законами только после того, как их справедливость была продемонстрирована для всех диплоидных организмов, размножающихся половым путем – от растений до человека. Смешно было бы, если Мйкельсон и Морли провели бы всего лишь одно измерение скорости света и на основании такого этого единственного измерения утверждали бы, что скорость света постоянна (в пределах точности измерения, которую и оценить-то невозможно, если измерение одно). 79

Изображение слайда
80

Слайд 80: Культ одиночного изолированного исследования

80 Культ одиночного изолированного исследования Чрезмерное «увлечение» анализом одиночных наборов данных пронизывает почти всю статистическую литературу и является серьезной болезнью статистического образования. Конечно же, не всегда возможно собрать больше данных, и некоторые научные эксперименты столь дорогостоящи, что правомочно извлекать из данных как только возможно больше информации. Однако, во многих других ситуациях можно и нужно собирать как можно больше данных, и это представляется благоразумным. Наука не дается малой кровью. 80

Изображение слайда
81

Слайд 81: Джон Уайлдер Тьюки  ( John Wilder Tukey, 16.04.1915 — 26.07.2000)

81 Джон Уайлдер Тьюки  ( John Wilder Tukey, 16.04.1915 — 26.07.2000) Исследования должны быть как минимум двухэтапными. Первый этап – разведочное (пилотное, порождающее гипотезы) исследование. Второй этап – проверочное (подтверждающее или опровергающее) исследование. Оно планируется на основе результатов разведочного исследования. 81

Изображение слайда
82

Последний слайд презентации: БМС –Биомедстатистика. Гармонизация статистических доказательств и предсказаний: Спасибо за внимание! Слайды доступны для всех

82 Спасибо за внимание! Слайды доступны для всех Никита Николаевич Хромов-Борисов Кафедра физики, математики и информатики СПбГМУ им. акад. И.П. Павлова Nikita.KhromovBorisov@gmail.com 8-952-204-89-49 – моб. 82

Изображение слайда