Презентация на тему: Обработка и анализ многомерных статистических данных в маркетинговых

Обработка и анализ многомерных статистических данных в маркетинговых исследованиях
Репрезентативность выборки
Многомерность и мультиколлинеарность
Метод главных компонент (МГК)
Метод главных компонент (МГК)
Пример сегментирования
Пример сегментирования
Пример сегментирования
Непараметрическая статистика. Анализ соответствий.
Непараметрическая статистика. Анализ соответствий.
Непараметрическая статистика. Анализ соответствий.
Непараметрическая статистика. Анализ соответствий.
Алгоритм выполнения анализа соответствий с двухвходовыми таблицами большей размерности
Алгоритм выполнения анализа соответствий с двухвходовыми таблицами большей размерности
Алгоритм выполнения анализа соответствий с двухвходовыми таблицами большей размерности
Алгоритм выполнения анализа соответствий с двухвходовыми таблицами большей размерности
Дихотомические модели в анализе соответствий
Дихотомические модели в анализе соответствий
Дихотомические модели в анализе соответствий
Рекомендуемая литература
1/20
Средняя оценка: 4.5/5 (всего оценок: 95)
Код скопирован в буфер обмена
Скачать (225 Кб)
1

Первый слайд презентации: Обработка и анализ многомерных статистических данных в маркетинговых исследованиях

1 Обработка и анализ многомерных статистических данных в маркетинговых исследованиях

Изображение слайда
2

Слайд 2: Репрезентативность выборки

2 Репрезентативность выборки Цель маркетингового исследования: Дать обоснованное суждения о природе изучаемого процесса, позволяющего, в конечном итоге, с той или иной доверительной вероятностью получить его прогнозные оценки. Принципиальные моменты : 1. В своих исследованиях маркетолог работает не с генеральной совокупностью, которая, как известно, представляет множество всех значении изучаемой величины, а с некоторой ее выборкой ; 2. Общеизвестные критерии репрезентативности выборки, требующие в расчетах знание значений математического ожидания и второго центрального момента, не подходят для исследований, где значения генеральной совокупности представлены в порядковой шкале. Пример : необходимо получить репрезентативный объем выборки для определения предпочтений жителей г. Перми к какому-либо товару. В нашем случае население г. Перми – это генеральная совокупность, тогда репрезентативный объем выборки можно получить из выражения: где m – численность генеральной совокупности, n – полученная численность выборки (репрезентативность выборки). 3. Корректный сравнительный анализ возможен только в однородных совокупностях.

Изображение слайда
3

Слайд 3: Многомерность и мультиколлинеарность

3 Многомерность и мультиколлинеарность Современное исследование не обходиться без проекции исследуемой совокупности потребителей (товаропроизводителей) в двух-трехмерном пространстве классифицирующих признаков и обоснованного суждения о ее (совокупности) структуре. Причина №2 – дублирование информации, доставляемой сильно взаимосвязанными признаками (мультиколлинеарность) Классический алгоритм, решающий данные проблемы в задачах сегментирования (кластеризации и классификации), - метод главных компонент. Причины позволяющие говорить о проблеме осмысления статистических данных и интерпретации получаемых статистических выводов : Причина №1 – многомерность статистических наблюдений, когда в исследовательской работе приходится сталкиваться с ситуациями, где общее число Р признаков в метрической или порядковой шкале регистрируемых на каждом из множества обследуемых объектов (потребителей, семей, предприятий, регионов), - достаточно велико.

Изображение слайда
4

Слайд 4: Метод главных компонент (МГК)

4 Метод главных компонент (МГК) Метод позволяет перейти от исходного многомерного пространства в пространство меньшей размерности, являющееся системой линейных ортогональных комбинаций исходных признаков с сохранением исходной статистической информации. Техника сегментирования объектов измеренных в метрической шкале : 1. В основе МГК лежит решение задачи на собственные значения выборной ковариационной матрицы данных, которая как всякая ковариационная матрица симметрична и имеет следующую структуру : 2. Решение задачи на собственные значения позволяет нам получить диагональную кавариационную матрицу, которая имеет следующую структуру : где значения ковариации равно нулю, а сумма диагональных элементов, собственных значений матрицы Р - равна ее общей дисперсии, что и означает сохранение информации исходного массива данных.

Изображение слайда
5

Слайд 5: Метод главных компонент (МГК)

5 Метод главных компонент (МГК) В общем виде выше сказанное можно представить как сингулярное разложение выборной ковариационной матрицы : где W - диагональная матрица, но диагонали которой стоят упорядоченные по убыванию собственные значения λ, а L – ортогональная матрица собственных векторов такая что : где I – единичная матрица, T – знак транспонирования. Примечание : Данный алгоритм можно реализовать в среде Mathcad посредством функции SVD и SVdS или посредством функции eigenvals и eigenvecs, определяющих соответственно собственные числа и собственные вектора.

Изображение слайда
6

Слайд 6: Пример сегментирования

6 Исходные данные : 1. Объект исследования : 16 инвестиционных фондов (оценка их состояния) ; 2. В качестве переменных используются следующие характеристики : - X1 - доходность за 5-летний период, млн. у.е. ; - X2 – риск, оценка в баллах ; - X3,X4,X5,X6,X7 - ежегодный процент дохода за 5-летний период ; - X8 - расходная часть, млн. у.е. ; - X9 - налоговый рейтинг, оценка в баллах. Пример сегментирования Сегментирование в среде “Statistica”: 1. Выбрать “ Анализ главных компонент ”; 2. Используем : - при не сопоставимых шкалах – матрицу корреляций ; - при сопоставимых шкалах – матрицу ковариаций ; 3. Опция “ Собственные вектора ”; 4. Опция “ Собственные значения ”. № X1 X2 X3 X4 X5 X6 X7 X8 X9 1 16,476 2 10 25 6 55 4 1,22 89 2 15,476 2 -1 21 16 55 4 1,03 90 3 14,757 3 4 26 15 39 -3 0,7 69 4 15,145 4 -1 20 13 71 -6 1,49 96 5 15,596 5 -7 21 9 89 -6 1,7 95 6 13,64 1 0 22 15 18 -6 1,33 85 7 14,081 3 1 16 21 25 -6 0,85 75 8 13,827 3 -2 25 7 41 -5 0,96 73 9 13,187 2 -1 11 7 43 -1 0,91 85 10 13,029 4 1 12 11 35 -17 1,82 92 11 12,301 3 -3 11 4 34 -2 1,41 80 12 11,728 2 3 7 3 27 2 0,77 90 13 12,441 4 -7 3 2 69 1 1,02 95 14 11,728 4 -10 16 5 41 -16 0,97 68 15 11,386 4 -6 2 -2 67 4 1,09 86 16 11,258 4 -8 15 -4 32 0 1 60

Изображение слайда
7

Слайд 7: Пример сегментирования

7 Пример сегментирования Вид главных компонент :

Изображение слайда
8

Слайд 8: Пример сегментирования

8 Пример сегментирования Описание модели : По весовым коэффициентом классифицируем первую главную компоненту как вектор, отвечающий за размер дохода фондов в первые 3 года - X 1, X 3, X 4, X 5, причем им противопоставляется переменная X 2, характеризующая степень риска. Следовательно, по этой главной компоненте и в близи ее будут располагаться объекты с относительно высокой доходностью при не высоких рисках: к этой группе относятся объекты №1, №2, №3, №6, №7. Им противопоставляются объекты с относительно высоким риском и не высокой доходностью (расположены в отрицательном квадранте системы координат): №11, №13, №14, №15. Вторая главная компонента отражает общую характеристику объектов. Это следует из того, что все координаты вектора Z 2 одного знака. Знаки при коэффициентах X 3 и X 7 из–за их низких значений не рассматриваются. Данный вектор определяет следующие две группы объектов - №4, №5 и №10 - с высоким рейтингом, высокими затратами и высоким риском; и группу фондов - №2 и №9 - с высоким рейтингом, низкими затратами и низким риском.

Изображение слайда
9

Слайд 9: Непараметрическая статистика. Анализ соответствий

9 Непараметрическая статистика. Анализ соответствий. Примечание : 1. Теория оценок математической статистики построена на нормальном законе распределения с известным математическим ожиданием и дисперсией. В повседневной жизни принятие гипотезы нормальности является достаточно жестким условием; 2. Реальные данные практически ни когда не входят в какое–либо конкретное параметрическое семейство, а в маркетинговых исследованиях они, кроме этого, представлены еще и в порядковых шкалах. Непараметический метод исследования критерий хи-квадрат ( X2 ) Виды применения критерия хи-квадрат : 1. В качестве критерия согласия при исследовании свойств одной выборки, путем сравнения эмпирических или наблюдаемых частот с ожидаемыми частотами : где Q - наблюдаемое распределение частот; Е - ожидаемое распределение частот; k - количество градации изменения или количество сравниваемых категорий изучаемого процесса. Нулевая гипотеза формируется как наблюдаемое распределение частот изучаемого процесса соответствует ожидаемому, т.е. и число степеней свободы df = k - l.

Изображение слайда
10

Слайд 10: Непараметрическая статистика. Анализ соответствий

10 Непараметрическая статистика. Анализ соответствий. Виды применения критерия хи-квадрат : 2. В качестве критерия независимости - применяется для сравнения распределений нескольких независимых выборок : где, k, Q и E соответствуют ранее введенным обозначением; l – количество сопоставляемых распределений (выборок); ij - соответствует ячейкам таблицы сопряженности. В этом случае нулевая гипотеза формируется как отсутствие связи между изучаемыми переменными, т. е. влияние одного изучаемого процесса на другой случайно, число степеней свободы при котором принимается данная гипотеза df = ( k -1)·( l -1).

Изображение слайда
11

Слайд 11: Непараметрическая статистика. Анализ соответствий

11 Непараметрическая статистика. Анализ соответствий. Таблица сопряженности - Отношение к предмету и сопоставление со сведениями об успеваемости Успеваемость Q1 Q2 Всего по строкам E1 E2 Нравится Не нравится Ожидаемое (нравиться) Ожидаемое (не нравиться) Отлично 12 4 16 8,24 7,75 Хорошо 9 6 15 7,73 7,27 Удовлетворительно 13 22 35 18,03 16,97 Всего по столбцам 34 32 66 - - Пример Ожидаемые частоты для каждой ячейки ij определяются следующим образом: где fi - сумма частот – строки или в терминах анализа соответствий – профиль –строки, fj - сумма частот – столбца или в терминах анализа соответствия профиль – столбца, например, для второй строки и первого столбца ожидаемая частота равна

Изображение слайда
12

Слайд 12: Непараметрическая статистика. Анализ соответствий

12 Непараметрическая статистика. Анализ соответствий. Расчетное (эмпирическое) значение критерия хи-квадрат 6,855. Критическое значение при доверительной вероятности – 0,95 ( = 0,95) и степеней свободы равное двум - (df = 2), согласно таблицы равно – 5,99. 6,855 > 5,99 следовательно нулевая гипотеза отклоняется и принимается, что отношение студентов к предмету связано с их успеваемостью т. е. влияние успеваемости на предпочтение студентов не случайны.

Изображение слайда
13

Слайд 13: Алгоритм выполнения анализа соответствий с двухвходовыми таблицами большей размерности

13 Алгоритм выполнения анализа соответствий с двухвходовыми таблицами большей размерности При работе с двухвходовыми таблицами сопряженности большей размерностью, т.е. где градаций двух переменных гораздо больше, маркетологу полезно получить координаты строк или столбцов для проекцирования их в двух- или трехмерном графике. В этом случае вводится матрица относительных частот т.е. каждый элемент исходной матрицы наблюдаемых частот делится на сумму всех элементов ( N=66 ), применительно к нашей задаче она имеет вид 0,182 0, 061 0,136 0, 091 0,19 7 0,333 P= Сумма всех элементов матриц Р равна единице.

Изображение слайда
14

Слайд 14: Алгоритм выполнения анализа соответствий с двухвходовыми таблицами большей размерности

14 Алгоритм выполнения анализа соответствий с двухвходовыми таблицами большей размерности Продолжение примера Примечание: В среде «Statistiсa» в модуле «Многомерный разведочный анализ» - «Анализ соответствий». В среде Mathсаd: -определяем диагональную матрицу, элементы главной диагонали которой равны соответствующим суммам элементов строк матрицы Р; -определяем диагональную матрицу, элементы главной диагонали которой равны соответствующим суммам элементов столбцов матрицы Р; -определяем матрицу -определяем матрицу и в терминах анализа соответствий – матрицу инерции строк и столбцов. и Решаем задачу на собственные значения матрицы с минимальной размерностью по алгоритму, показанному в методе главных компонент

Изображение слайда
15

Слайд 15: Алгоритм выполнения анализа соответствий с двухвходовыми таблицами большей размерности

15 Алгоритм выполнения анализа соответствий с двухвходовыми таблицами большей размерности Проекции строк и столбцов: Q 1, Q 2 = (-0,3127, 0,332) Строка 1,2,3 = (-0,4699, -0,1697, 0,2875)

Изображение слайда
16

Слайд 16: Алгоритм выполнения анализа соответствий с двухвходовыми таблицами большей размерности

16 Алгоритм выполнения анализа соответствий с двухвходовыми таблицами большей размерности Описание модели : Совместные проекции на прямой координат строк – «успеваемость» и столбцов – «отношение к предмету» убедительно демонстрируют разделение на следующие группы: студенты с успеваемостью отлично и хорошо положительно относятся к предмету и располагаются с лева относительно начала координат и соответственно с права вторая группа – с плохой успеваемость и отрицательным отношением к предмету. Основной целью данного метода является упрощенное представления (в пространстве меньшей размерности) информации, содержащейся в больших частотных таблицах. Возможность выявления различных особенностей: наличие кластеров, скопление некоторых точек- столбцов в близи тех или иных строк и наоборот, получение при этом разумной экономической интрепетации.

Изображение слайда
17

Слайд 17: Дихотомические модели в анализе соответствий

17 Дихотомические модели в анализе соответствий В качестве примера используются данные из работы К.В. Пьянковой «Методика выявления латентных знания потребителей как основа маркетинговых исследований регионального рынка продовольствия». Таблица - Мотивации потребителя и их коды Номер переменной Возможные мотивации потребительского поведения Качественные характеристики Код х 1 Доходы потребителя Ниже среднего 1 Среднее (15500 рублей) 2 Выше средних 3 х 2 Возраст потребителя До 25 лет 1 22-55 лет 2 Больше 55 лет 3 х 3 Отношение к краевому бюджету Считаю, что его увеличение не повлечет увеличение социальных благ для населения края 1 Не уверен, не в том не в другом 2 Считаю, что повлечет 3 х 4 Предпочтения при покупке товаров Цена продукта 1 Доступность продукта 2 Бренд товаропроизводителя 3 х 5 Отношение к своему здоровью Не всегда забочусь о своем здоровье 1 Всегда 2 х 6 Оценка качества товаров региональных сельскохозяйственных товаропроизводителей Ниже среднего 1 Среднее 2 Выше среднего 3

Изображение слайда
18

Слайд 18: Дихотомические модели в анализе соответствий

18 Дихотомические модели в анализе соответствий Таблица 1 – Правила перекодировки признаков и условия при выполнении которого бинарному признаку присваивается единица Х 11 Х 12 Х 21 Х 22 Х 31 Х 32 Х 41 Х 42 Х 52 Х 61 Х 62 x>1 x>2 x>1 x>2 x>1 x>2 x>1 x>2 x=2 x>1 x>2 Продолжение: Правила перекодировки исходных признаков в бинарные и описание признаков представлены в таблицах Таблица 2 – Описание бинарных признаков Значение признака Вербальное описание Х 11 = 0 Доходы ниже средн его Х 11 = 1 Доходы не ниже среднего Х 12 = 0 Доходы не выше среднего Х 12 = 1 Доходы выше среднего Х 21 = 0 Возраст до 25 лет Х 21 = 1 Возраст старше 25 лет Х 22 = 0 Возраст не старше 55 лет

Изображение слайда
19

Слайд 19: Дихотомические модели в анализе соответствий

19 Дихотомические модели в анализе соответствий Х 32 = 0 Не уверен, что повлечет увеличение социальных благ Х 32 = 1 Повлечет увеличение социальных благ Х 41 = 0 Главное цена Х 41 = 1 Главное не цена (доступность или бренд) Х 42 = 0 Главное не бренд (доступность или цена) Х 42 = 1 Главное бренд товаропроизводителя Х 52 = 0 Не всегда забочусь о своем здоровье Х 52 = 1 Всегда забочусь о своем здоровье Х 61 = 0 Качество ниже среднего Х 61 = 1 Качество не ниже среднего Х 62 = 0 Качество не выше среднего Х 62 = 1 Качество выше среднего Х 22 = 1 Возраст старше 55 лет Х 31 = 0 Не повлечет увеличение социальных благ Х 31 = 1 Не уверен, что не повлечет увеличение социальных благ Продолжение таблицы 2

Изображение слайда
20

Последний слайд презентации: Обработка и анализ многомерных статистических данных в маркетинговых: Рекомендуемая литература

20 Рекомендуемая литература С. А. Айвазян и др. «Классификация снижения размерности» гл. 13, 17.

Изображение слайда