Лаб_7 Корреляционный анализ. Коэффициент парной корреляции в Excel

10.07.2019

Задача 1.

Используя критерий Пирсона, при уровне значимости a = 0,05 проверить, согласуется ли гипотеза о нормальном распределении генеральной совокупности X с эмпирическим распределением выборки объема n = 200.

Решение.

1. Вычислим и выборочное среднее квадратическое отклонение .
2. Вычислим теоретические частоты учитывая, что n = 200, h = 2, = 4,695, по формуле
.

Составим расчетную таблицу (значения функции j (x ) приведены в приложении 1).

i

3. Сравним эмпирические и теоретические частоты. Составим расчетную таблицу, из которой найдем наблюдаемое значение критерия :

i









Сумма

По таблице критических точек распределения (приложение 6), по уровню значимости a = 0,05 и числу степеней свободы k = s – 3 = 9 – 3 = 6 находим критическую точку правосторонней критической области (0,05; 6) = 12,6.
Так как =22,2 > = 12,6, гипотезу о нормальном распределении генеральной совокупности отвергаем. Другими словами, эмпирические и теоретические частоты различаются значимо.

Задача2

Представлены статистические данные.

Результаты измерений диаметров n = 200 валков после шлифовки обобщены в табл. (мм):
Таблица Частотный вариационный ряд диаметров валков

i
xi , мм


xi , мм

Требуется:

1) составить дискретный вариационный ряд, при необходимости упорядочив его;

2) определить основные числовые характеристики ряда;

3) дать графическое представление ряда в виде полигона (гистограммы) распределения;

4) построить теоретическую кривую нормального распределения и проверить соответствие эмпирического и теоретического распределений по критерию Пирсона. При проверке статистической гипотезы о виде распределения принять уровень значимости a = 0,05

Решение: Основные числовые характеристики данного вариационного ряда найдем по определению. Средний диаметр валков равен (мм):
x ср = = 6,753;
исправленная дисперсия (мм2):
D = = 0,0009166;
исправленное среднее квадратическое (стандартное) отклонение (мм):
s = = 0,03028.

Рис. Частотное распределение диаметров валков

Исходное («сырое») частотное распределение вариационного ряда, т.е. соответствие ni (xi ), отличается довольное большим разбросом значений ni относительно некоторой гипотетической «усредняющей» кривой (рис.). В этом случае предпочтительно построить и анализировать интервальный вариационный ряд, объединяя частоты для диаметров, попадающих в соответствующие интервалы.
Число интервальных групп K определим по формуле Стерджесса:
K = 1 + log2n = 1 + 3,322lgn ,
где n = 200 – объем выборки. В нашем случае
K = 1 + 3,322×lg200 = 1 + 3,322×2,301 = 8,644 » 8.
Ширина интервала равна (6,83 – 6,68)/8 = 0,01875 » 0,02 мм.
Интервальный вариационный ряд представлен в табл.

Таблица Частотный интервальный вариационный ряд диаметров валков.

k
xk , мм

Интервальный ряд может быть наглядно представлен в виде гистограммы частотного распределения.

Рис . Частотное распределение диаметров валков. Сплошная линия – сглаживающая нормальная кривая.

Вид гистограммы позволяет сделать предположение о том, что распределение диаметров валков подчиняется нормальному закону, согласно которому теоретические частоты могут быть найдены как
nk , теор = n ×N (a ; s; xk )×Dxk ,
где, в свою очередь, сглаживающая гауссова кривая нормального распределения определяется выражением:
N (a ; s; xk ) = .
В этих выражениях xk – центры интервалов в частотном интервальном вариационном ряде.

Например, x 1 = (6,68 + 6,70)/2 = 6,69. В качестве оценок центра a и параметра s гауссовой кривой можно принять:
a = x ср.
Из рис. видно, что гауссова кривая нормального распределения в целом соответствует эмпирическому интервальному распределению. Однако следует удостовериться в статистической значимости этого соответствия. Используем для проверки соответствия эмпирического распределения эмпирическому критерий согласия Пирсона c2 . Для этого следует вычислить эмпирическое значение критерия как сумму
= ,
где nk и nk ,теор – эмпирические и теоретические (нормальные) частоты, соответственно. Результаты расчетов удобно представить в табличном виде:
Таблица Вычисления критерия Пирсона

[xk , xk+ 1), мм	xk , мм	nk ,теор

Критическое значение критерия найдем по таблице Пирсона для уровня значимости a = 0,05 и числа степеней свободы d .f . = K – 1 – r , где K = 8 – число интервалов интервального вариационного ряда; r = 2 – число параметров теоретического распределения, оцененных на основании данных выборки (в данном случае, – параметры a и s). Таким образом, d .f . = 5. Критическое значение критерия Пирсона есть крит(a; d .f .) = 11,1. Так как c2эмп < c2крит, заключаем, что согласие между эмпирическим и теоретическим нормальным распределением является статистическим значимым. Иными словами, теоретическое нормальное распределение удовлетворительно описывает эмпирические данные.

Задача3

Коробки с шоколадом упаковываются автоматически. По схеме собственно-случайной бесповторной выборки взято 130 из 2000 упаковок, содержащихся в партии, и получены следующие данные об их весе:

Требуется используя критерий Пирсона при уровне значимости a=0,05 проверить гипотезу о том, что случайная величина X – вес упаковок – распределена по нормальному закону. Построить на одном графике гистограмму эмпирического распределения и соответствующую нормальную кривую.

Решение

1012,5
= 615,3846

Примечание:

В принципе в качестве дисперсии нормального закона распределения следует взять исправленную выборочную дисперсию. Но т.к. количество наблюдений – 130 достаточно велико, то подойдет и “обычная” .
Таким образом, теоретическое нормальное распределение имеет вид:

Интервал

[xi ; xi+1 ]

Эмпирические частоты

Вероятности
pi

Теоретические частоты
npi

(ni-npi)2

ЛАБОРАТОРНАЯ РАБОТА

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ В EXCEL

1.1 Корреляционный анализ в MS Excel

Корреляционный анализ состоит в определении степени связи между двумя случайными величинами X и Y. В качестве меры такой связи используется коэффициент корреляции. Коэффициент корреляции оценивается по выборке объема п связанных пар наблюдений (x i , y i) из совместной генеральной совокупности X и Y. Для оценки степени взаимосвязи величин X и Y, измеренных в количественных шкалах, используетсякоэффициент линейной корреляции (коэффициент Пирсона), предполагающий, что выборки X и Y распределены по нормальному закону.

Коэффициент корреляции изменяется от -1 (строгая обратная линейная зависимость) до 1 (строгая прямая пропорциональная зависимость). При значении 0 линейной зависимости между двумя выборками нет.

Общая классификация корреляционных связей (по Ивантер Э.В., Коросову А.В., 1992):

Существует несколько типов коэффициентов корреляции, что зависит от переменных Х иY, которые могут быть измерены в разных шкалах. Именно этот факт и определяет выбор соответствующего коэффициента корреляции (см. табл. 13):

В MS Excel для вычисления парных коэффициентов линейной корреляции используется специальная функция КОРРЕЛ (массив1; массив2),

№ испытуемых

где массив1 – ссылка на диапазон ячеек первой выборки (X);

Пример 1: 10 школьникам были даны тесты на наглядно-образное и вербальное мышление. Измерялось среднее время решения заданий теста в секундах. Исследователя интересует вопрос: существует ли взаимосвязь между временем решения этих задач? Переменная X - обозначает среднее время решения наглядно-образных, а переменная Y- среднее время решения вербальных заданий тестов.

Решение: Для выявления степени взаимосвязи, прежде всего, необходимо ввести данные в таблицу MS Excel (см. табл., рис. 1). Затем вычисляется значение коэффициента корреляции. Для этого курсор установите в ячейку C1. На панели инструментов нажмите кнопку Вставка функции (fx).

В появившемся диалоговом окне Мастер функций выберите категорию Статистические и функциюКОРРЕЛ , после чего нажмите кнопку ОК. Указателем мыши введите диапазон данных выборки Х в поле массив1 (А1:А10). В поле массив2 введите диапазон данных выборки У (В1:В10). Нажмите кнопку ОК. В ячейке С1 появится значение коэффициента корреляции - 0,54119. Далее необходимо посмотреть на абсолютное число коэффициента корреляции и определить тип связи (тесная, слабая, средняя и т.д.)

Рис. 1. Результаты вычисления коэффициента корреляции

Таким образом, связь между временем решения наглядно-образных и вербальных заданий теста не доказана.

Задание 1. Имеются данные по 20 сельскохозяйственным хозяйствам. Найтикоэффициент корреляции между величинами урожайности зерновых культур и качеством земли и оценить его значимость. Данные приведены в таблице.

Таблица 2. Зависимость урожайности зерновых культур от качества земли

Номер хозяйства	Качество земли, балл	Урожайность, ц/га

Задание 2. Определите, имеется ли связь между временем работы спортивного тренажера для фитнеса (тыс. часов) и стоимость его ремонта (тыс. руб.):

Время работа тренажера (тыс. часов)	Стоимость ремонта (тыс. руб.)

1.2 Множественная корреляция в MS Excel

При большом числе наблюдений, когда коэффициенты корреляции необходимо последовательно вычислять для нескольких выборок, для удобства получаемые коэффициенты сводят в таблицы, называемые корреляционными матрицами .

Корреляционная матрица - это квадратная таблица, в которой на пересечении соответствующих строк и столбцов находятся коэффициент корреляции между соответствующими параметрами.

В MS Excel для вычисления корреляционных матриц используется процедура Корреляция из пакета Анализ данных. Процедура позволяет получить корреляционную матрицу, содержащую коэффициенты корреляции между различными параметрами.

Для реализации процедуры необходимо:

1. выполнить команду Сервис - Анализ данных ;

2. в появившемся списке Инструменты анализа выбрать строку Корреляция и нажать кнопку ОК ;

3. в появившемся диалоговом окне указать Входной интервал , то есть ввести ссылку на ячейки, содержащие анализируемые данные. Входной интервал должен содержать не менее двух столбцов.

4. в разделе Группировка переключатель установить в соответствии с введенными данными (по столбцам или по строкам);

5. указать выходной интервал , то есть ввести ссылку на ячейку, начиная с которой будут показаны результаты анализа. Размер выходного диапазона будет определен автоматически, и на экран будет выведено сообщение в случае возможного наложения выходного диапазона на исходные данные. Нажать кнопку ОК .

В выходной диапазон будет выведена корреляционная матрица, в которой на пересечении каждых строки и столбца находится коэффициент корреляции между соответствующими параметрами. Ячейки выходного диапазона, имеющие совпадающие координаты строк и столбцов, содержат значение 1, так как каждый столбец во входном диапазоне полностью коррелирует сам с собой

Пример 2. Имеются ежемесячные данные наблюдений за состоянием погоды и посещаемостью музеев и парков (см. табл. 3). Необходимо определить, существует ли взаимосвязь между состоянием погоды и посещаемостью музеев и парков.

Таблица 3. Результаты наблюдений

Число ясных дней	Количество посетителей музея	Количество посетителей парка

Решение . Для выполнения корреляционного анализа введите в диапазон A1:G3 исходные данные (рис. 2). Затем в меню Сервис выберите пункт Анализ данных и далее укажите строку Корреляция . В появившемся диалоговом окне укажите Входной интервал (А2:С7). Укажите, что данные рассматриваются по столбцам. Укажите выходной диапазон (Е1) и нажмите кнопку ОК .

На рис. 33 видно, что корреляция между состоянием погоды и посещаемостью музея равна -0,92, а между состоянием погоды и посещаемостью парка - 0,97, между посещаемостью парка и музея - 0,92.

Таким образом, в результате анализа выявлены зависимости: сильная степень обратной линейной взаимосвязи между посещаемостью музея и количеством солнечных дней и практически линейная (очень сильная прямая) связь между посещаемостью парка и состоянием погоды. Между посещаемостью музея и парка имеется сильная обратная взаимосвязь.

Рис. 2. Результаты вычисления корреляционной матрицы из примера 2

Задание 3 . 10 менеджеров оценивались по методике экспертных оценок психологических характеристик личности руководителя. 15 экспертов производили оценку каждой психологической характеристики по пятибальной системе (см. табл. 4). Психолога интересует вопрос, в какой взаимосвязи находятся эти характеристики руководителя между собой.

Таблица 4. Результаты исследования

Испытуемые п/п	тактичность	требовательность	критичность

Лабораторная работа №6. Проверка гипотезы о нормальном распределении выборки по критерию Пирсона.

Лабораторная работа выполняется в Excel 2007.

Цель работы – дать навыки первичной обработки данных, построении гистограмм, подборе подходящего закона распределения и вычислении его параметров, проверка согласия между эмпирическим и гипотетическим законом распределения по критерию хи-квадрат Пирсона средствами Excel.

1. Формирование выборки нормально распределенных случайных чисел с заданными значениями математического ожидания и среднего квадратического отклонения.

Данные → Анализ данных → Генерация случайных чисел → ОК .

Рис. 1. Диалоговое окно Анализ данных

В появившемся окне Генерация случайных чисел ввести:

Число переменных: 1 ;

Число случайных чисел: 100 ;

Распределение: Нормальное .

Параметры:

Среднее = 15 (математическое ожидание);

Стандартное отклонение = 2 (среднее квадратическое отклонение);

Случайное рассеивание: не заполнять (или заполнить по указанию преподавателя );

Выходной интервал: адрес первой ячейки столбца массива случайных чисел - $ A $1 . ОК .

Рис. 2. Диалоговое окно Генерация случайных чисел с заполненными полями ввода

В результате выполнения операции Генерация случайных чисел появится столбец $ A $1: $A$100 , содержащий 100 случайных чисел.

Рис. 3. Фрагмент листа Excel первых нескольких случайных чисел $A$1: $A$100.

2. Определение параметров выборки, описательные статистики

В главном меню Excel выбрать: Данные → Анализ данных → Описательная статистика → ОК .

В появившемся окне Описательная статистика ввести:

Входной интервал – 100 случайных чисел в ячейках $ A $1: $ A $100 ;

Группирование - по столбцам;

Выходной интервал – адрес ячейки, с которой начинается таблица Описательная статистика - $ C $1 ;

Итоговая статистика – поставить галочку. ОК.

Рис. 4. Диалоговое окно Описательная статистика с заполненными полями ввода.

На листе Excel появится таблица – Столбец 1

Рис. 5. Таблица Столбец 1 с данными процедуры Описательная статистика .

Таблица содержит описательные статистики, в частности:

Среднее – оценка математического ожидания;

Стандартное отклонение – оценка среднего квадратического отклонения;

Эксцесс и Асимметричность – оценки эксцесса и асимметрии.

Приблизительное равенство нулю оценок эксцесса и асимметрии, и приблизительное равенство оценки среднего оценке медианы дает предварительное основание выбрать в качестве основной гипотезы H 0 распределения элементов генеральной совокупности - нормальный закон.

Интервал – размах выборки;

Минимум – минимальное значение случайной величины в выборке;

Максимум – максимальное значение случайной величины в выборке.

В ячейке F 15 - длина частичного интервала h , вычисленная следующим образом:

Число интервалов группировки k в Excel вычисляется автоматически по формуле

где, скобки означают – округление до целой части числа в меньшую сторону.

В рассматриваемом варианте n = 100 , следовательно, k = 11 . Действительно:

Эта формула занесена в ячейку F 15: =($D$13-$D$12)/10

Результаты процедуры Описательная статистика потребуются в дальнейшем при построении теоретического закона распределения.

Ширина интервала составит:

Xmax - максимальное значение группировочного признака в совокупности.
Xmin - минимальное значение группировочного признака.
Определим границы группы.

Номер группы	Нижняя граница	Верхняя граница
1	43	45.83
2	45.83	48.66
3	48.66	51.49
4	51.49	54.32
5	54.32	57.15
6	57.15	60

Одно и тоже значение признака служит верхней и нижней границами двух смежных (предыдущей и последующей) групп.
Для каждого значения ряда подсчитаем, какое количество раз оно попадает в тот или иной интервал. Для этого сортируем ряд по возрастанию.

43	43 - 45.83	1
48.5	45.83 - 48.66	1
49	48.66 - 51.49	1
49	48.66 - 51.49	2
49.5	48.66 - 51.49	3
50	48.66 - 51.49	4
50	48.66 - 51.49	5
50.5	48.66 - 51.49	6
51.5	51.49 - 54.32	1
51.5	51.49 - 54.32	2
52	51.49 - 54.32	3
52	51.49 - 54.32	4
52	51.49 - 54.32	5
52	51.49 - 54.32	6
52	51.49 - 54.32	7
52	51.49 - 54.32	8
52	51.49 - 54.32	9
52.5	51.49 - 54.32	10
52.5	51.49 - 54.32	11
53	51.49 - 54.32	12
53	51.49 - 54.32	13
53	51.49 - 54.32	14
53.5	51.49 - 54.32	15
54	51.49 - 54.32	16
54	51.49 - 54.32	17
54	51.49 - 54.32	18
54.5	54.32 - 57.15	1
54.5	54.32 - 57.15	2
55.5	54.32 - 57.15	3
57	54.32 - 57.15	4
57.5	57.15 - 59.98	1
57.5	57.15 - 59.98	2
58	57.15 - 59.98	3
58	57.15 - 59.98	4
58.5	57.15 - 59.98	5
60	57.15 - 59.98	6

Результаты группировки оформим в виде таблицы:

Группы	№ совокупности	Частота fi
43 - 45.83	1	1
45.83 - 48.66	2	1
48.66 - 51.49	3,4,5,6,7,8	6
51.49 - 54.32	9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26	18
54.32 - 57.15	27,28,29,30	4
57.15 - 59.98	31,32,33,34,35,36	6

Таблица для расчета показателей.

Группы	x i	Кол-во, f i	x i * f i	Накопленная частота, S	\|x - x ср \|*f	(x - x ср) 2 *f	Частота, f i /n
43 - 45.83	44.42	1	44.42	1	8.88	78.91	0.0278
45.83 - 48.66	47.25	1	47.25	2	6.05	36.64	0.0278
48.66 - 51.49	50.08	6	300.45	8	19.34	62.33	0.17
51.49 - 54.32	52.91	18	952.29	26	7.07	2.78	0.5
54.32 - 57.15	55.74	4	222.94	30	9.75	23.75	0.11
57.15 - 59.98	58.57	6	351.39	36	31.6	166.44	0.17
		36	1918.73		82.7	370.86	1

Для оценки ряда распределения найдем следующие показатели:
Показатели центра распределения .
Средняя взвешенная

Мода
Мода - наиболее часто встречающееся значение признака у единиц данной совокупности.

где x 0 – начало модального интервала; h – величина интервала; f 2 –частота, соответствующая модальному интервалу; f 1 – предмодальная частота; f 3 – послемодальная частота.
Выбираем в качестве начала интервала 51.49, так как именно на этот интервал приходится наибольшее количество.

Наиболее часто встречающееся значение ряда – 52.8
Медиана
Медиана делит выборку на две части: половина вариант меньше медианы, половина - больше.
В интервальном ряду распределения сразу можно указать только интервал, в котором будут находиться мода или медиана. Медиана соответствует варианту, стоящему в середине ранжированного ряда. Медианным является интервал 51.49 - 54.32, т.к. в этом интервале накопленная частота S, больше медианного номера (медианным называется первый интервал, накопленная частота S которого превышает половину общей суммы частот).

Таким образом, 50% единиц совокупности будут меньше по величине 53.06
Показатели вариации .
Абсолютные показатели вариации .
Размах вариации - разность между максимальным и минимальным значениями признака первичного ряда.
R = X max - X min
R = 60 - 43 = 17
Среднее линейное отклонение - вычисляют для того, чтобы учесть различия всех единиц исследуемой совокупности.

Каждое значение ряда отличается от другого не более, чем на 2.3
Дисперсия - характеризует меру разброса около ее среднего значения (мера рассеивания, т.е. отклонения от среднего).

Несмещенная оценка дисперсии - состоятельная оценка дисперсии.

Среднее квадратическое отклонение .

Каждое значение ряда отличается от среднего значения 53.3 не более, чем на 3.21
Оценка среднеквадратического отклонения .

Относительные показатели вариации .
К относительным показателям вариации относят: коэффициент осцилляции, линейный коэффициент вариации, относительное линейное отклонение.
Коэффициент вариации - мера относительного разброса значений совокупности: показывает, какую долю среднего значения этой величины составляет ее средний разброс.

Поскольку v ≤ 30%, то совокупность однородна, а вариация слабая. Полученным результатам можно доверять.
Линейный коэффициент вариации или Относительное линейное отклонение - характеризует долю усредненного значения признака абсолютных отклонений от средней величины.

Проверка гипотез о виде распределения .
1. Проверим гипотезу о том, что Х распределено по нормальному закону с помощью критерия согласия Пирсона.

где p i - вероятность попадания в i-й интервал случайной величины, распределенной по гипотетическому закону
Для вычисления вероятностей p i применим формулу и таблицу функции Лапласа

где
s = 3.21, x ср = 53.3
Теоретическая (ожидаемая) частота равна n i = np i , где n = 36

Интервалы группировки	Наблюдаемая частота n i	x 1 = (x i - x ср)/s	x 2 = (x i+1 - x ср)/s	Ф(x 1)	Ф(x 2)	Вероятность попадания в i-й интервал, p i = Ф(x 2) - Ф(x 1)	Ожидаемая частота, 36p i	Слагаемые статистики Пирсона, K i
43 - 45.83	1	-3.16	-2.29	-0.5	-0.49	0.01	0.36	1.14
45.83 - 48.66	1	-2.29	-1.42	-0.49	-0.42	0.0657	2.37	0.79
48.66 - 51.49	6	-1.42	-0.56	-0.42	-0.21	0.21	7.61	0.34
51.49 - 54.32	18	-0.56	0.31	-0.21	0.13	0.34	12.16	2.8
54.32 - 57.15	4	0.31	1.18	0.13	0.38	0.26	9.27	3
57.15 - 59.98	6	1.18	2.06	0.38	0.48	0.0973	3.5	1.78
	36							9.84

Определим границу критической области. Так как статистика Пирсона измеряет разницу между эмпирическим и теоретическим распределениями, то чем больше ее наблюдаемое значение K набл, тем сильнее довод против основной гипотезы.
Поэтому критическая область для этой статистики всегда правосторонняя: }

Лаб_7 Корреляционный анализ. Коэффициент парной корреляции в Excel

1.2 Множественная корреляция в MS Excel

1. Формирование выборки нормально распределенных случайных чисел с заданными значениями математического ожидания и среднего квадратического отклонения.

2. Определение параметров выборки, описательные статистики

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Ваш комментарий (необязательно):