Функции нескольких переменных формулы. Функции нескольких переменных. Область определения функции нескольких переменных


Рис. 2.1. График линии регрессии

Первое выражение позволяет по заданным значениям фактора x рассчитать теоретические значения результативного признака, подставляя в него фактические значения фактора x . На графике теоретические значения лежат на прямой, которые представляют собой линию регрессии (рис. 2.1).

Построение линейной регрессии сводится к оценке ее параметров а и b . Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК).

МНК позволяет получить такие оценки параметров а и b, при которых сумма квадратов отклонений фактических значений от теоретических минимальна:

Для нахождения минимума надо вычислить частные производные суммы (4) по каждому из параметров – а и b – и приравнять их к нулю.

(5)

Преобразуем, получаем систему нормальных уравнений:

(6)

В этой системе n - объем выборки, суммы легко рассчитываются из исходных данных. Решаем систему относительно а и b , получаем:

(7)

. (8)

Выражение (7) можно записать в другом виде:

(9)

где ковариация признаков, дисперсия фактора x.

Параметр b называется коэффициентом регрессии. Его величина показывает среднее изменение результата с изменением фактора на одну единицу. Возможность четкой экономической интерпретации коэффициента регрессии сделала линейное уравнение парной регрессии достаточно распространенным в эконометрических исследованиях.

Формально a – значение y при x = 0. Если x не имеет и не может иметь нулевого значения, то такая трактовка свободного члена a не имеет смысла. Параметр a может не иметь экономического содержания. Попытки экономически интерпретировать его могут привести к абсурду, особенно при a < 0. Интерпретировать можно лишь знак при параметре a. Если a > 0, то относительное изменение результата происходит медленнее, чем изменение фактора. Сравним эти относительные изменения:

< при > 0, > 0 <

Иногда линейное уравнение парной регрессии записывают для отклонений от средних значений:

где , . При этом свободный член равен нулю, что и отражено в выражении (10). Этот факт следует из геометрических соображений: уравнению регрессии отвечает та же прямая (3), но при оценке регрессии в отклонениях начало координат перемещается в точку с координатами . При этом в выражении (8) обе суммы будут равны нулю, что и повлечет равенство нулю свободного члена.

Рассмотрим в качестве примера по группе предприятий, выпускающих один вид продукции, регрессионную зависимость издержек от выпуска продукции .

Таблица 2.1

Выпуск продукции тыс.ед.() Затраты на производство, млн.руб.()
31,1
67,9

Продолжение таблицы 2.1

141,6
104,7
178,4
104,7
141,6
Итого: 22 770,0

Система нормальных уравнений будет иметь вид:

Решая её, получаем a = -5,79, b = 36,84.

Уравнение регрессии имеет вид:

Подставив в уравнение значения х , найдем теоретические значения y (последняя колонка таблицы).

Величина a не имеет экономического смысла. Если переменные x и y выразить через отклонения от средних уровней, то линия регрессии на графике пройдет через начало координат. Оценка коэффициента регрессии при этом не изменится:

, где , .

При линейной регрессии в качестве показателя тесноты связи выступает линейный коэффициент корреляции r:

Величина характеризует долю дисперсии y , вызванную влиянием остальных, не учтенных в модели факторов.

2.3. Предпосылки МНК (условия Гаусса-Маркова)

Связь между y и x в парной регрессии является не функциональной, а корреляционной. Поэтому оценки параметров a и b являются случайными величинами, свойства которых существенно зависят от свойств случайной составляющей ε. Для получения по МНК наилучших результатов необходимо выполнение следующих предпосылок относительно случайного отклонения (условия Гаусса-Маркова):

1. Математическое ожидание случайного отклонения равно нулю для всех наблюдений: .

2. Дисперсия случайных отклонений постоянна: .

Выполнимость данной предпосылки называется гомоскедастичностью - постоянством дисперсии отклонений. Невыполнимость данной предпосылки называется гетероскедастичностью - непостоянством дисперсии отклонений.

3. Случайные отклонения ε i и ε j являются независимыми друг от друга для :

Выполнимость этого условия называется отсутствием автокорреляции .

4. Случайное отклонение должно быть независимо от объясняющих переменных. Обычно это условие выполняется автоматически, если объясняющие переменные в данной модели не являются случайными. Кроме того, выполнимость данной предпосылки для эконометрических моделей не столь критична по сравнению с первыми тремя.

При выполнимости указанных предпосылок имеет место теорема Гаусса-Маркова : оценки (7) и (8), полученные по МНК, имеют наименьшую дисперсию в классе всех линейных несмещенных оценок .

Таким образом, при выполнении условий Гаусса- Маркова оценки (7) и (8) являются не только несмещенными оценками коэффициентов регрессии, но и наиболее эффективными, т. е. имеют наименьшую дисперсию по сравнению с любыми другими оценками данных параметров, линейными относительно величин y i .

Именно понимание важности условий Гаусса- Маркова отличает компетентного исследователя, использующего регрессионный анализ, от некомпетентного. Если эти условия не выполнены, исследователь должен это сознавать. Если корректирующие действия возможны, то аналитик должен быть в состоянии их выполнить. Если ситуацию исправить невозможно, исследователь должен быть способен оценить, насколько серьезно это может повлиять на результаты.

2.4. Оценка существенности параметров линейной
регрессии и корреляции

После того, как найдено уравнение линейной регрессии (3), проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

Оценка значимости уравнения регрессии в целом дается с помощью F -критерия Фишера. При этом выдвигается нулевая гипотеза о том, что коэффициент регрессии равен нулю и, следовательно, фактор х не оказывает влияния на результат y.

Перед расчетом критерия проводятся анализ дисперсии. Можно показать, что общая сумма квадратов отклонений (СКО) y от среднего значения раскладывается на две части – объясненную и необъясненную:


(Общая СКО) =

Здесь возможны два крайних случая: когда общая СКО в точности равна остаточной и когда общая СКО равна факторной.

В первом случае фактор х не оказывает влияния на результат, вся дисперсия y обусловлена воздействием прочих факторов, линия регрессии параллельна оси Ох и .

Во втором случае прочие факторы не влияют на результат, y связан с x функционально, и остаточная СКО равна нулю.

Но на практике в правой части (13) присутствуют оба слагаемых. Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации y приходится на объясненную вариацию. Если объясненная СКО будет больше остаточной СКО, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результат y . Это равносильно тому, что коэффициент детерминации будет приближаться к единице.

Число степеней свободы. (df-degrees of freedom ) - это число независимо варьируемых значений признака.

Для общей СКО требуется независимых отклонений, т. к. что позволяет свободно варьировать значений, а последнее n -е отклонение определяется из общей суммы, равной нулю. Поэтому .

Факторную СКО можно выразить так:

Эта СКО зависит только от одного параметра b, поскольку выражение под знаком суммы к значениям результативного признака не относится. Следовательно, факторная СКО имеет одну степень свободы, и

Для определения воспользуемся аналогией с балансовым равенством (11). Так же, как и в равенстве (11), можно записать равенство и между числами степеней свободы:

Таким образом, можем записать . Из этого баланса определяем, что

Разделив каждую СКО на свое число степеней свободы, получим средний квадрат отклонений, или дисперсию на одну степень свободы:

. (15)

. (16)

. (17)

Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим F -критерий для проверки нулевой гипотезы, которая в данном случае записывается как

Если справедлива, то дисперсии не отличаются друг от друга. Для необходимо опровержение, чтобы факторная дисперсия превышала остаточную в несколько раз.

Английским статистиком Снедекором разработаны таблицы критических значений F при разных уровнях существенности Снедекором и различных числах степеней свободы. Табличное значение F -критерия – это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы.

При нахождении табличного значения F -критерия задается уровень значимости (обычно 0,05 или 0,01) и две степени свободы – числителя (она равна единице) и знаменателя, равная

Вычисленное значение F признается достоверным (отличным от единицы), если оно больше табличного, т. е. (α;1; ). В этом случае отклоняется и делается вывод о существенности превышения D факт над D остат. , т. е. о существенности статистической связи между y и x.

Если , то вероятность выше заданного уровня (например: 0,05), и эта гипотеза не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи между y и x. Уравнение регрессии считается статистически незначимым, не отклоняется.

Величина F -критерия связана с коэффициентом детерминации.

, (19)

В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров.

Стандартная ошибка коэффициента регрессии определяется по формуле:

, (20)

Остаточная дисперсия на одну степень свободы (то же, что и ).

Величина стандартной ошибки совместно с t- распределением Стьюдента при степенях свободы применяется для проверки существенности коэффициента регрессии и для расчета его доверительных интервалов.

Величина коэффициента регрессии сравнивается с его стандартной ошибкой; определяется фактическое значение t- критерия Стьюдента

которое затем сравнивается с табличным значением при определенном уровне значимости α и числе степеней свободы . Здесь проверяется нулевая гипотеза в виде также предполагающая несущественность статистической связи между y и х , но только учитывающая значение b , а не соотношение между факторной и остаточной дисперсиями в общем балансе дисперсии результативного признака. Но общий смысл гипотез один и тот же: проверка наличия статистической связи между y и х или её отсутствия.

Если (α; ), то гипотеза должна быть отклонена, а статистическая связь y с х считается установленной. В случае (α; ) нулевая гипотеза не может быть отклонена, и влияние х на y признается несущественным.

Существует связь между и F :

Отсюда следует, что

Доверительный интервал для b определяется как

где – рассчитанное (оцененное) по МНК значение коэффициента регрессии.

Стандартная ошибка параметра определяется по формуле:

Процедура оценивания существенности a не отличается от таковой для параметра b . При этом фактическое значение t -критерия вычисляется по формуле:

Процедура проверки значимости линейного коэффициента корреляции отличается от процедур, приведенных выше. Это объясняется тем, что r как случайная величина распределена по нормальному закону лишь при большом числе наблюдений и малых значениях |r |. В этом случае гипотеза об отсутствии корреляционной связи между y и х проверяется на основе статистики

, (26)

которая при справедливости приблизительно распределена по закону Стьюдента с () степенями свободы. Если , то гипотеза отвергается с вероятностью ошибиться, не превышающей α . Из (19) видно, что в парной линейной регрессии . Кроме того, , поэтому . Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

Но при малых выборках и значениях r , близких к , следует учитывать, что распределение r как случайной величины отличается от нормального, и построение доверительных интервалов для r не может быть выполнено стандартным способом. В этом случае вообще легко прийти к противоречию, заключающемуся в том, что доверительный интервал будет содержать значения, превышающие единицу.

Чтобы обойти это затруднение, используется так называемое
z -преобразование Фишера:

, (27)

которое дает нормально распределенную величину z , значения которой при изменении r от –1 до +1 изменяются от -∞ до +∞. Стандартная ошибка этой величины равна:

. (28)

Для величины z имеются таблицы, в которых приведены её значения для соответствующих значений r .

Для z выдвигается нуль-гипотеза , состоящая в том, что корреляция отсутствует. В этом случае значения статистики

которая распределена по закону Стьюдента с () степенями свободы, не превышает табличного на соответствующем уровне значимости.

Для каждого значения z можно вычислить критические значения r . Таблицы критических значений r разработаны для уровней значимости 0,05 и 0,01 и соответствующего числа степеней свободы. Если вычисленное значение r превышает по абсолютной величине табличное, то данное значение r считается существенным. В противном случае фактическое значение несущественно.

2.5. Нелинейные модели регрессии
и их линеаризация

До сих пор мы рассматривали лишь линейную модель регрессионной зависимости y от x (3). В то же время многие важные связи в экономике являются нелинейными . Примерами такого рода регрессионных моделей являются производственные функции (зависимости между объемом произведенной продукции и основными факторами производства – трудом, капиталом и т. п.) и функции спроса (зависимости между спросом на какой-либо вид товаров или услуг, с одной стороны, и доходом и ценами на этот и другие товары – с другой).

При анализе нелинейных регрессионных зависимостей наиболее важным вопросом применения классического МНК является способ их линеаризации. В случае линеаризации нелинейной зависимости получаем линейное регрессионное уравнение типа (3), параметры которого оцениваются обычным МНК, после чего можно записать исходное нелинейное соотношение.

Несколько особняком в этом смысле стоит полиномиальная модель произвольной степени:

к которой обычный МНК можно применять без всякой предварительной линеаризации.

Рассмотрим указанную процедуру применительно к параболе второй степени:

. (31)

Такая зависимость целесообразна в случае, если для некоторого интервала значений фактора возрастающая зависимость меняется на убывающую или наоборот. В этом случае можно определить значение фактора, при котором достигается максимальное или минимальное значение результативного признака. Если исходные данные не обнаруживают изменение направленности связи, параметры параболы становятся трудно интерпретируемыми, и форму связи лучше заменить другими нелинейными моделями.

Применение МНК для оценки параметров параболы второй степени сводится к дифференцированию суммы квадратов остатков регрессии по каждому из оцениваемых параметров и приравниванию полученных выражений нулю. Получается система нормальных уравнений, число которых равно числу оцениваемых параметров, т. е. трем:

(32)

Решать эту систему можно любым способом, в частности, методом определителей.

Экстремальное значение функции наблюдается при значении фактора, равном:

Если , то имеет место максимум, т. е. зависимость сначала растет, а затем падает. Такого рода зависимости наблюдаются в экономике труда при изучении заработной платы работников физического труда, когда в роли фактора выступает возраст. При парабола имеет минимум, что обычно проявляется в удельных затратах на производство в зависимости от объема выпускаемой продукции.

В нелинейных зависимостях, неявляющихся классическими полиномами, обязательно проводится предварительная линеаризация, которая заключается в преобразовании или переменных, или параметров модели, или в комбинации этих преобразований. Рассмотрим некоторые классы таких зависимостей.

Зависимости гиперболического типа имеют вид:

. (33)

Примером такой зависимости является кривая Филлипса , констатирующая обратную зависимость процента прироста заработной платы от уровня безработицы. В этом случае значение параметра b будет больше нуля.

Другим примером зависимости (33) являются кривые Энгеля , формулирующие следующую закономерность: с ростом дохода доля доходов, расходуемых на продовольствие, уменьшается, а доля доходов, расходуемых на непродовольственные товары, будет возрастать. В этом случае а результативный признак в (33) показывает долю расходов на непродовольственные товары.

Линеаризация уравнения (33) сводится к замене фактора , и уравнение регрессии имеет вид (3), в котором вместо фактора х используем фактор z :

К такому же линейному уравнению сводится полулогарифмическая кривая:

, (35)

которая может быть использована для описания кривых Энгеля. Здесь ln(x ) заменяется на z и получается уравнение (34).

Достаточно широкий класс экономических показателей характеризуется приблизительно постоянным темпом относительного прироста во времени. Этому соответствуют зависимости показательного (экспоненциального) типа, которые записываются в виде:

или в виде

. (37)

Возможна и такая зависимость:

. (38)

В регрессиях типа (36) – (38) применяется один и тот же способ линеаризации – логарифмирование. Уравнение (36) приводится к виду:

. (39)

Замена переменной сводит его к линейному виду:

, (40)

где . Если Е удовлетворяет условиям Гаусса-Маркова, параметры уравнения (36) оцениваются по МНК из уравнения (40). Уравнение (37) приводится к виду:

который отличается от (39) только видом свободного члена, и линейное уравнение выглядит так:

, (42)

где . Параметры А и b получаются обычным МНК, затем параметр a в зависимости (37) получается как антилогарифм А . При логарифмировании (38) получаем линейную зависимость:

, (43)

где , а остальные обозначения те же, что и выше. Здесь также применяется МНК к преобразованным данным, а параметр b для (38) получается как антилогарифм коэффициента В .

Широко распространены в практике социально-экономических исследований степенные зависимости. Они используются для построения и анализа производственных функций. В функциях вида:

особенно ценным является то обстоятельство, что параметр b равен коэффициенту эластичности результативного признака по фактору х . Преобразуя (44) путем логарифмирования, получаем линейную регрессию:

, (45)

Еще одним видом нелинейности, приводимым к линейному виду, является обратная зависимость:

. (46)

Проводя замену , получим.

Назначение сервиса . С помощью сервиса в онлайн режиме можно найти:
  • параметры уравнения линейной регрессии y=a+bx , линейный коэффициент корреляции с проверкой его значимости;
  • тесноту связи с помощью показателей корреляции и детерминации, МНК-оценку, статическую надежность регрессионного моделирования с помощью F-критерия Фишера и с помощью t-критерия Стьюдента , доверительный интервал прогноза для уровня значимости α

Уравнение парной регрессии относится к уравнению регрессии первого порядка . Если эконометрическая модель содержит только одну объясняющую переменную, то она имеет название парной регрессии. Уравнение регрессии второго порядка и уравнение регрессии третьего порядка относятся к нелинейным уравнениям регрессии .

Пример . Осуществите выбор зависимой (объясняемой) и объясняющей переменной для построения парной регрессионной модели. Дайте . Определите теоретическое уравнение парной регрессии. Оцените адекватность построенной модели (интерпретируйте R-квадрат, показатели t-статистики, F-статистики).
Решение будем проводить на основе процесса эконометрического моделирования .
1-й этап (постановочный) – определение конечных целей моделирования, набора участвующих в модели факторов и показателей, их роли.
Спецификация модели - определение цели исследования и выбор экономических переменных модели.
Ситуационная (практическая) задача. По 10 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от удельного веса рабочих высокой квалификации в общей численности рабочих x (в %).
2-й этап (априорный) – предмодельный анализ экономической сущности изучаемого явления, формирование и формализация априорной информации и исходных допущений, в частности относящейся к природе и генезису исходных статистических данных и случайных остаточных составляющих в виде ряда гипотез.
Уже на этом этапе можно говорить о явной зависимости уровня квалификации рабочего и его выработкой, ведь чем опытней работник, тем выше его производительность. Но как эту зависимость оценить?
Парная регрессия представляет собой регрессию между двумя переменными – y и x , т. е. модель вида:

Где y – зависимая переменная (результативный признак); x – независимая, или объясняющая, переменная (признак-фактор). Знак «^» означает, что между переменными x и y нет строгой функциональной зависимости, поэтому практически в каждом отдельном случае величина y складывается из двух слагаемых:

Где y – фактическое значение результативного признака; y x – теоретическое значение результативного признака, найденное исходя из уравнения регрессии; ε – случайная величина, характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнению регрессии.
Графически покажем регрессионную зависимость между выработкой продукции на одного работника и удельного веса рабочих высокой квалификации.


3-й этап (параметризация) – собственно моделирование, т.е. выбор общего вида модели, в том числе состава и формы входящих в неё связей между переменными. Выбор вида функциональной зависимости в уравнении регрессии называется параметризацией модели. Выбираем уравнение парной регрессии , т.е. на конечный результат y будет влиять только один фактор.
4-й этап (информационный) – сбор необходимой статистической информации, т.е. регистрация значений участвующих в модели факторов и показателей. Выборка состоит из 10 предприятий отрасли.
5-й этап (идентификация модели) – оценивание неизвестных параметров модели по имеющимся статистическим данным.
Чтобы определить параметры модели, используем МНК - метод наименьших квадратов . Система нормальных уравнений будет выглядеть следующим образом:
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Для расчета параметров регрессии построим расчетную таблицу (табл. 1).
x y x 2 y 2 x y
10 6 100 36 60
12 6 144 36 72
15 7 225 49 105
17 7 289 49 119
18 7 324 49 126
19 8 361 64 152
19 8 361 64 152
20 9 400 81 180
20 9 400 81 180
21 10 441 100 210
171 77 3045 609 1356

Данные берем из таблицы 1 (последняя строка), в итоге имеем:
10a + 171 b = 77
171 a + 3045 b = 1356
Эту СЛАУ решаем методом Крамера или методом обратной матрицы .
Получаем эмпирические коэффициенты регрессии: b = 0.3251, a = 2.1414
Эмпирическое уравнение регрессии имеет вид:
y = 0.3251 x + 2.1414
6-й этап (верификация модели) – сопоставление реальных и модельных данных, проверка адекватности модели, оценка точности модельных данных.
Анализ проводим с помощью

Как уже было сказано выше, в случае линейной зависимости уравнение регрессии является уравнением прямой линии.

Различают

У = а у/х + b у/х Х

Х = а х/у + b х/у Y

Здесь а и b – коэффициенты, или параметры, которые определяются по формулам. Значение коэффициента b вычисляется

Из формул видно, что коэффициенты регрессии b у/х и b х/у имеют тот же знак, что и коэффициент корреляции, размерность, равную отношению размерностей изучаемых показателей Х и У , и связаны соотношением:

Для вычисления коэффициента а достаточно подставить в уравнения регрессии средние значения коррелируемых переменных



График теоретических линий регрессии (рис. 17) имеет вид:

Рис 17. Теоретические линии регрессии

Из приведённых выше формул легко доказать, что угловые коэффициенты прямых регрессии равны соответственно


Так как
, то
. Это означает, что прямая регрессииY на Х имеет меньший наклон к оси абсцисс, чем прямая регрессии Х на Y .

Чем ближе к единице, тем меньше угол между прямыми регрессии. Эти прямые сливаются только тогда, когда
.

При
прямые регрессии описываются уравнениями
,
.

Таким образом, уравнения регрессии позволяют:

    определить, насколько изменяется одна величина относительно другой;

    прогнозировать результаты.

2. Методика выполнения расчётно-графической работы №2

Расчётно-графическая работа содержит 4 раздела.

В первом разделе:

    Формулируется тема;

    Формулируется цель работы.

Во втором разделе:

    Формулируется условие задачи;

    Заполняется таблица исходных данных выборки.

В третьем разделе:

    Результаты измерений представляются в виде вариационного ряда;

    Даётся графическое представление вариационного ряда.

    Формулируется вывод.

В четвёртом разделе:

    Рассчитываются основные статистические характеристики ряда измерений;

    По итогам расчётов формулируется вывод.

Оформление работы:

    Работа выполняется в отдельной тетради или на форматных листах.

    Титульный лист заполняется по образцу.

Российский Государственный Университет

физической культуры, спорта, молодёжи и туризма

Кафедра естественнонаучных дисциплин

Корреляционный и регрессионный анализы

Расчётно-графическая работа №2

по курсу математики

Выполнил: студент 1 к. 1 пот. 1гр.

Иванов С.М.

Преподаватель:

доц. кафедры ЕНД и ИТ

Москва – 2012

(Пример оформления титульного листа)

Пример выполнения расчётно-графической работы №2.

Тема работы: Корреляционный и регрессионный анализы.

Цель работы: Определить взаимосвязь показателей двух выборок.

Ход выполнения работы:

    Придумать две выборки из своего вида спорта с одинаковым объемом n.

    Нарисовать корреляционное поле, сделать предварительный вывод.

    Определить достоверность коэффициента корреляции и сделать окончательный вывод.

    Построить теоретические линии регрессии на корреляционном поле и показать точку их пересечения.

1. Условие задачи: У группы спортсменов определяли результаты в беге на 100 м с барьерами X i (с) и прыжках в длину Y i (м) (табл.). Проверить, существует ли корреляционная связь между исследуемыми признаками и определить достоверность коэффициента корреляции.

Таблица исходных данных выборки: Результаты приведены в таблице исходных данных.

Таблица 6

Результаты бега и прыжка

п/п

X i , с

Y i , м

п/п

X i , с

Y i , м

Решение:

2 . Построим корреляционное поле (диаграмму рассеяния) и сделаем предварительный вывод относительно связи между исследуемыми признаками.

Рис 18. Корреляционное поле

Предварительный вывод:

Связь между показателями результатов в беге на 100 м с барьерами X i (с) и прыжками в длину Y i (см):

    линейная;

    отрицательная;

3 . Рассчитаем парный линейный коэффициент корреляции Бравэ – Пирсона, предварительно рассчитав основные статистические показатели двух выборок. Для их расчёта составим таблицу, в которой предпоследний и последний столбцы необходимы для расчёта стандартных отклонений, если они неизвестны. Для нашего примера эти значения рассчитаны в первой расчётно-графической работе, но для наглядности покажем расчёт дополнительно.

Таблица 7

Вспомогательная таблица для расчета коэффициента

корреляции Бравэ – Пирсона

X i , с

Y i , см

13,59

x =
,

y =
,

.

Полученное значение коэффициента корреляции позволяет подтвердить предварительный вывод и сделать окончательное заключение – связь между исследуемыми признаками:

    линейная;

    отрицательная;

4 . Определим достоверность коэффициента корреляции.

Предположим, что связь между результатом в беге на 100 м и прыжком в длину отсутствует (Н о : r = 0).

Вывод: существует сильная, отрицательная статистически достоверная (р =0,95) связь между бегом с препятствиями на дистанцию 100 м и прыжком в длину. Это означает, что с улучшением результата в прыжке в длину уменьшается время пробега дистанции 100 м.

5 . Вычислим коэффициент детерминации:

Следовательно, только 96% взаимосвязи результатов в беге на 100 м с барьерами и в прыжке в длину объясняется их взаимовлиянием, а остальная часть, т. е. 4% объясняется влиянием других неучтённых факторов.

6. Рассчитаем коэффициенты прямого и обратного уравнений регрессии, воспользовавшись формулами, подставим значения рассчитанных коэффициентов в соответствующую формулу и запишем прямое и обратное уравнения регрессии:

Y = а 1 + b 1 Х - прямое уравнение регрессии;

Х = а 2 + b 2 Y - обратное уравнение регрессии.

Воспользуемся результатами расчёта, приведёнными выше:

x =
; y =
;
;
13,59;
6,4,

Рассчитаем коэффициент b 1 , воспользовавшись формулой:

Для расчета коэффициента а 1 b 1 Х и Y

а 1 и b 1

Y = 22 - 1,15Х

Рассчитаем коэффициент b 2 , воспользовавшись формулой:

Для расчета коэффициента а 2 подставим в прямое уравнение регрессии вместо b 2 рассчитанное значение, а вместо Х и Y средние арифметические значения двух выборок из таблицы:

Подставим полученные значения коэффициентов а 1 и b 1 в прямое уравнение регрессии и запишем уравнение прямой линии:

Х = 18,92 - 0,83Y

Таким образом, мы получили прямое и обратное уравнения регрессии:

Y = 22 - 1,15Х - прямое уравнение регрессии;

Х = 18,92 - 0,83Y - обратное уравнение регрессии.

Для проверки правильности расчётов достаточно подставить в прямое уравнение среднее значение и определить значениеY . Полученное значение Y должно быть близким или равным среднему значению .

Y = 22 - 1,15 = 22 - 1,1513,59 = 6,4 =.

При подстановке в обратное уравнение регрессии среднего значения , полученное значение Х должно быть близким или равным среднему значению .

Х = 18,92 - 0,83= 18,92 - 0,83 6,4 = 13,6 = .

7. Построим линии регрессии на корреляционном поле.

Для графического построения теоретических линий регрессии, как и для построения любой прямой, необходимо иметь две точки из диапазона значений Х и Y .

Причём, в прямом уравнении регрессии независимая переменная Х , а зависимая Y , а в обратном – независимая переменная Y , а зависимая Х.

Y = 22 - 1,15Х

X

Y

Х = 18,92 - 0,83Y

Y

X

Координатами точки пересечения линий прямого и обратного уравнений регрессии являются значения средних арифметических двух выборок (с учётом погрешностей округлений при приближённых расчётах).

Вывод: зная результат бега с препятствиями на дистанцию 100 м, по прямому уравнению регрессии, можно теоретически определить результат прыжка в длину; и наоборот, зная результат прыжка в длину по обратному уравнению регрессии, можно определить результат бега с препятствиями.

В предыдущих заметках предметом анализа часто становилась отдельная числовая переменная, например, доходность взаимных фондов, время загрузки Web-страницы или объем потребления безалкогольных напитков. В настоящей и следующих заметках мы рассмотрим методы предсказания значений числовой переменной в зависимости от значений одной или нескольких других числовых переменных.

Материал будет проиллюстрирован сквозным примером. Прогнозирование объема продаж в магазине одежды. Сеть магазинов уцененной одежды Sunflowers на протяжении 25 лет постоянно расширялась. Однако в настоящее время у компании нет систематического подхода к выбору новых торговых точек. Место, в котором компания собирается открыть новый магазин, определяется на основе субъективных соображений. Критериями выбора являются выгодные условия аренды или представления менеджера об идеальном местоположении магазина. Представьте, что вы - руководитель отдела специальных проектов и планирования. Вам поручили разработать стратегический план открытия новых магазинов. Этот план должен содержать прогноз годового объема продаж во вновь открываемых магазинах. Вы полагаете, что торговая площадь непосредственно связана с объемом выручки, и хотите учесть этот факт в процессе принятия решения. Как разработать статистическую модель, позволяющую прогнозировать годовой объем продаж на основе размера нового магазина?

Как правило, для предсказания значений переменной используется регрессионный анализ. Его цель - разработать статистическую модель, позволяющую предсказывать значения зависимой переменной, или отклика, по значениям, по крайней мере одной, независимой, или объясняющей, переменной. В настоящей заметке мы рассмотрим простую линейную регрессию - статистический метод, позволяющий предсказывать значения зависимой переменной Y по значениям независимой переменной X . В последующих заметках будет описана модель множественной регрессии, предназначенная для предсказания значений независимой переменной Y по значениям нескольких зависимых переменных (Х 1 , Х 2 , …, X k ).

Скачать заметку в формате или , примеры в формате

Виды регрессионных моделей

где ρ 1 – коэффициент автокорреляции; если ρ 1 = 0 (нет автокорреляции), D ≈ 2; если ρ 1 ≈ 1 (положительная автокорреляции), D ≈ 0; если ρ 1 = -1 (отрицательная автокорреляции), D ≈ 4.

На практике применение критерия Дурбина-Уотсона основано на сравнении величины D с критическими теоретическими значениями d L и d U для заданного числа наблюдений n , числа независимых переменных модели k (для простой линейной регрессии k = 1) и уровня значимости α. Если D < d L , гипотеза о независимости случайных отклонений отвергается (следовательно, присутствует положительная автокорреляция); если D > d U , гипотеза не отвергается (то есть автокорреляция отсутствует); если d L < D < d U , нет достаточных оснований для принятия решения. Когда расчётное значение D превышает 2, то с d L и d U сравнивается не сам коэффициент D , а выражение (4 – D ).

Для вычисления статистики Дурбина-Уотсона в Excel обратимся к нижней таблице на рис. 14 Вывод остатка . Числитель в выражении (10) вычисляется с помощью функции =СУММКВРАЗН(массив1;массив2), а знаменатель =СУММКВ(массив) (рис. 16).

Рис. 16. Формулы расчета статистики Дурбина-Уотсона

В нашем примере D = 0,883. Основной вопрос заключается в следующем - какое значение статистики Дурбина-Уотсона следует считать достаточно малым, чтобы сделать вывод о существовании положительной автокорреляции? Необходимо соотнести значение D с критическими значениями (d L и d U ), зависящими от числа наблюдений n и уровня значимости α (рис. 17).

Рис. 17. Критические значения статистики Дурбина-Уотсона (фрагмент таблицы)

Таким образом, в задаче об объеме продаж в магазине, доставляющем товары на дом, существуют одна независимая переменная (k = 1), 15 наблюдений (n = 15) и уровень значимости α = 0,05. Следовательно, d L = 1,08 и d U = 1,36. Поскольку D = 0,883 < d L = 1,08, между остатками существует положительная автокорреляция, метод наименьших квадратов применять нельзя.

Проверка гипотез о наклоне и коэффициенте корреляции

Выше регрессия применялась исключительно для прогнозирования. Для определения коэффициентов регрессии и предсказания значения переменной Y при заданной величине переменной X использовался метод наименьших квадратов. Кроме того, мы рассмотрели среднеквадратичную ошибку оценки и коэффициент смешанной корреляции. Если анализ остатков подтверждает, что условия применимости метода наименьших квадратов не нарушаются, и модель простой линейной регрессии является адекватной, на основе выборочных данных можно утверждать, что между переменными в генеральной совокупности существует линейная зависимость.

Применение t -критерия для наклона. Проверяя, равен ли наклон генеральной совокупности β 1 нулю, можно определить, существует ли статистически значимая зависимость между переменными X и Y . Если эта гипотеза отклоняется, можно утверждать, что между переменными X и Y существует линейная зависимость. Нулевая и альтернативная гипотезы формулируются следующим образом: Н 0: β 1 = 0 (нет линейной зависимости), Н1: β 1 ≠ 0 (есть линейная зависимость). По определению t -статистика равна разности между выборочным наклоном и гипотетическим значением наклона генеральной совокупности, деленной на среднеквадратичную ошибку оценки наклона:

(11) t = (b 1 β 1 ) / S b 1

где b 1 – наклон прямой регрессии по выборочным данным, β1 – гипотетический наклон прямой генеральной совокупности, , а тестовая статистика t имеет t -распределение с n – 2 степенями свободы.

Проверим, существует ли статистически значимая зависимость между размером магазина и годовым объемом продаж при α = 0,05. t -критерий выводится наряду с другими параметрами при использовании Пакета анализа (опция Регрессия ). Полностью результаты работы Пакета анализа приведены на рис. 4, фрагмент, относящийся к t-статистике – на рис. 18.

Рис. 18. Результаты применения t

Поскольку число магазинов n = 14 (см. рис.3), критическое значение t -статистики при уровне значимости α = 0,05 можно найти по формуле: t L =СТЬЮДЕНТ.ОБР(0,025;12) = –2,1788, где 0,025 – половина уровня значимости, а 12 = n – 2; t U =СТЬЮДЕНТ.ОБР(0,975;12) = +2,1788.

Поскольку t -статистика = 10,64 > t U = 2,1788 (рис. 19), нулевая гипотеза Н 0 отклоняется. С другой стороны, р -значение для Х = 10,6411, вычисляемое по формуле =1-СТЬЮДЕНТ.РАСП(D3;12;ИСТИНА), приближенно равно нулю, поэтому гипотеза Н 0 снова отклоняется. Тот факт, что р -значение почти равно нулю, означает, что если бы между размерами магазинов и годовым объемом продаж не существовало реальной линейной зависимости, обнаружить ее с помощью линейной регрессии было бы практически невозможно. Следовательно, между средним годовым объемом продаж в магазинах и их размером существует статистически значимая линейная зависимость.

Рис. 19. Проверка гипотезы о наклоне генеральной совокупности при уровне значимости, равном 0,05, и 12 степенях свободы

Применение F -критерия для наклона. Альтернативным подходом к проверке гипотез о наклоне простой линейной регрессии является использование F -критерия. Напомним, что F -критерий применяется для проверки отношения между двумя дисперсиями (подробнее см. ). При проверке гипотезы о наклоне мерой случайных ошибок является дисперсия ошибки (сумма квадратов ошибок, деленная на количество степеней свободы), поэтому F -критерий использует отношение дисперсии, объясняемой регрессией (т.е. величины SSR , деленной на количество независимых переменных k ), к дисперсии ошибок (MSE = S Y X 2 ).

По определению F -статистика равна среднему квадрату отклонений, обусловленных регрессией (MSR), деленному на дисперсию ошибки (MSE): F = MSR / MSE , где MSR = SSR / k , MSE = SSE /(n – k – 1), k – количество независимых переменных в регрессионной модели. Тестовая статистика F имеет F -распределение с k и n – k – 1 степенями свободы.

При заданном уровне значимости α решающее правило формулируется так: если F > F U , нулевая гипотеза отклоняется; в противном случае она не отклоняется. Результаты, оформленные в виде сводной таблицы дисперсионного анализа, приведены на рис. 20.

Рис. 20. Таблица дисперсионного анализа для проверки гипотезы о статистической значимости коэффициента регрессии

Аналогично t -критерию F -критерий выводится в таблицу при использовании Пакета анализа (опция Регрессия ). Полностью результаты работы Пакета анализа приведены на рис. 4, фрагмент, относящийся к F -статистике – на рис. 21.

Рис. 21. Результаты применения F -критерия, полученные с помощью Пакета анализа Excel

F-статистика равна 113,23, а р -значение близко к нулю (ячейка Значимость F ). Если уровень значимости α равен 0,05, определить критическое значение F -распределения с одной и 12 степенями свободы можно по формуле F U =F.ОБР(1-0,05;1;12) = 4,7472 (рис. 22). Поскольку F = 113,23 > F U = 4,7472, причем р -значение близко к 0 < 0,05, нулевая гипотеза Н 0 отклоняется, т.е. размер магазина тесно связан с его годовым объемом продаж.

Рис. 22. Проверка гипотезы о наклоне генеральной совокупности при уровне значимости, равном 0,05, с одной и 12 степенями свободы

Доверительный интервал, содержащий наклон β 1 . Для проверки гипотезы о существовании линейной зависимости между переменными можно построить доверительный интервал, содержащий наклон β 1 и убедиться, что гипотетическое значение β 1 = 0 принадлежит этому интервалу. Центром доверительного интервала, содержащего наклон β 1 , является выборочный наклон b 1 , а его границами - величины b 1 ± t n –2 S b 1

Как показано на рис. 18, b 1 = +1,670, n = 14, S b 1 = 0,157. t 12 =СТЬЮДЕНТ.ОБР(0,975;12) = 2,1788. Следовательно, b 1 ± t n –2 S b 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, или + 1,328 ≤ β 1 ≤ +2,012. Таким образом, наклон генеральной совокупности с вероятностью 0,95 лежит в интервале от +1,328 до +2,012 (т.е. от 1 328 000 до 2 012 000 долл.). Поскольку эти величины больше нуля, между годовым объемом продаж и площадью магазина существует статистически значимая линейная зависимость. Если бы доверительный интервал содержал нуль, между переменными не было бы зависимости. Кроме того, доверительный интервал означает, что каждое увеличение площади магазина на 1 000 кв. футов приводит к увеличению среднего объема продаж на величину от 1 328 000 до 2 012 000 долларов.

Использование t -критерия для коэффициента корреляции. был введен коэффициент корреляции r , представляющий собой меру зависимости между двумя числовыми переменными. С его помощью можно установить, существует ли между двумя переменными статистически значимая связь. Обозначим коэффициент корреляции между генеральными совокупностями обеих переменных символом ρ. Нулевая и альтернативная гипотезы формулируются следующим образом: Н 0 : ρ = 0 (нет корреляции), Н 1 : ρ ≠ 0 (есть корреляция). Проверка существования корреляции:

где r = + , если b 1 > 0, r = – , если b 1 < 0. Тестовая статистика t имеет t -распределение с n – 2 степенями свободы.

В задаче о сети магазинов Sunflowers r 2 = 0,904, а b 1 - +1,670 (см. рис. 4). Поскольку b 1 > 0, коэффициент корреляции между объемом годовых продаж и размером магазина равен r = +√0,904 = +0,951. Проверим нулевую гипотезу, утверждающую, что между этими переменными нет корреляции, используя t -статистику:

При уровне значимости α = 0,05 нулевую гипотезу следует отклонить, поскольку t = 10,64 > 2,1788. Таким образом, можно утверждать, что между объемом годовых продаж и размером магазина существует статистически значимая связь.

При обсуждении выводов, касающихся наклона генеральной совокупности, доверительные интервалы и критерии для проверки гипотез являются взаимозаменяемыми инструментами. Однако вычисление доверительного интервала, содержащего коэффициент корреляции, оказывается более сложным делом, поскольку вид выборочного распределения статистики r зависит от истинного коэффициента корреляции.

Оценка математического ожидания и предсказание индивидуальных значений

В этом разделе рассматриваются методы оценки математического ожидания отклика Y и предсказания индивидуальных значений Y при заданных значениях переменной X .

Построение доверительного интервала. В примере 2 (см. выше раздел Метод наименьших квадратов ) регрессионное уравнение позволило предсказать значение переменной Y X . В задаче о выборе места для торговой точки средний годовой объем продаж в магазине площадью 4000 кв. футов был равен 7,644 млн. долл. Однако эта оценка математического ожидания генеральной совокупности является точечной. для оценки математического ожидания генеральной совокупности была предложена концепция доверительного интервала. Аналогично можно ввести понятие доверительного интервала для математического ожидания отклика при заданном значении переменной X :

где , = b 0 + b 1 X i – предсказанное значение переменное Y при X = X i , S YX – среднеквадратичная ошибка, n – объем выборки, X i - заданное значение переменной X , µ Y | X = X i – математическое ожидание переменной Y при Х = Х i , SSX =

Анализ формулы (13) показывает, что ширина доверительного интервала зависит от нескольких факторов. При заданном уровне значимости возрастание амплитуды колебаний вокруг линии регрессии, измеренное с помощью среднеквадратичной ошибки, приводит к увеличению ширины интервала. С другой стороны, как и следовало ожидать, увеличение объема выборки сопровождается сужением интервала. Кроме того, ширина интервала изменяется в зависимости от значений X i . Если значение переменной Y предсказывается для величин X , близких к среднему значению , доверительный интервал оказывается уже, чем при прогнозировании отклика для значений, далеких от среднего.

Допустим, что, выбирая место для магазина, мы хотим построить 95%-ный доверительный интервал для среднего годового объема продаж во всех магазинах, площадь которых равна 4000 кв. футов:

Следовательно, средний годовой объем продаж во всех магазинах, площадь которых равна 4 000 кв. футов, с 95% -ной вероятностью лежит в интервале от 6,971 до 8,317 млн. долл.

Вычисление доверительного интервала для предсказанного значения. Кроме доверительного интервала для математического ожидания отклика при заданном значении переменной X , часто необходимо знать доверительный интервал для предсказанного значения. Несмотря на то что формула для вычисления такого доверительного интервала очень похожа на формулу (13), этот интервал содержит предсказанное значение, а не оценку параметра. Интервал для предсказанного отклика Y X = Xi при конкретном значении переменной X i определяется по формуле:

Предположим, что, выбирая место для торговой точки, мы хотим построить 95%-ный доверительный интервал для предсказанного годового объема продаж в магазине, площадь которого равна 4000 кв. футов:

Следовательно, предсказанный годовой объем продаж в магазине, площадь которого равна 4000 кв. футов, с 95%-ной вероятностью лежит в интервале от 5,433 до 9,854 млн. долл. Как видим, доверительный интервал для предсказанного значения отклика намного шире, чем доверительный интервал для его математического ожидания. Это объясняется тем, что изменчивость при прогнозировании индивидуальных значений намного больше, чем при оценке математического ожидания.

Подводные камни и этические проблемы, связанные с применением регрессии

Трудности, связанные с регрессионным анализом:

  • Игнорирование условий применимости метода наименьших квадратов.
  • Ошибочная оценка условий применимости метода наименьших квадратов.
  • Неправильный выбор альтернативных методов при нарушении условий применимости метода наименьших квадратов.
  • Применение регрессионного анализа без глубоких знаний о предмете исследования.
  • Экстраполяция регрессии за пределы диапазона изменения объясняющей переменной.
  • Путаница между статистической и причинно-следственной зависимостями.

Широкое распространение электронных таблиц и программного обеспечения для статистических расчетов ликвидировало вычислительные проблемы, препятствовавшие применению регрессионного анализа. Однако это привело к тому, что регрессионный анализ стали применять пользователи, не обладающие достаточной квалификацией и знаниями. Откуда пользователям знать об альтернативных методах, если многие из них вообще не имеют ни малейшего понятия об условиях применимости метода наименьших квадратов и не умеют проверять их выполнение?

Исследователь не должен увлекаться перемалыванием чисел - вычислением сдвига, наклона и коэффициента смешанной корреляции. Ему нужны более глубокие знания. Проиллюстрируем это классическим примером, взятым из учебников. Анскомб показал, что все четыре набора данных, приведенных на рис. 23, имеют одни и те же параметры регрессии (рис. 24).

Рис. 23. Четыре набора искусственных данных

Рис. 24. Регрессионный анализ четырех искусственных наборов данных; выполнен с помощью Пакета анализа (кликните на рисунке, чтобы увеличить изображение)

Итак, с точки зрения регрессионного анализа все эти наборы данных совершенно идентичны. Если бы анализ был на этом закончен, мы потеряли бы много полезной информации. Об этом свидетельствуют диаграммы разброса (рис. 25) и графики остатков (рис. 26), построенные для этих наборов данных.

Рис. 25. Диаграммы разброса для четырех наборов данных

Диаграммы разброса и графики остатков свидетельствуют о том, что эти данные отличаются друг от друга. Единственный набор, распределенный вдоль прямой линии, - набор А. График остатков, вычисленных по набору А, не имеет никакой закономерности. Этого нельзя сказать о наборах Б, В и Г. График разброса, построенный по набору Б, демонстрирует ярко выраженную квадратичную модель. Этот вывод подтверждается графиком остатков, имеющим параболическую форму. Диаграмма разброса и график остатков показывают, что набор данных В содержит выброс. В этой ситуации необходимо исключить выброс из набора данных и повторить анализ. Метод, позволяющий обнаруживать и исключать выбросы из наблюдений, называется анализом влияния. После исключения выброса результат повторной оценки модели может оказаться совершенно иным. Диаграмма разброса, построенная по данным из набора Г, иллюстрирует необычную ситуацию, в которой эмпирическая модель значительно зависит от отдельного отклика (Х 8 = 19, Y 8 = 12,5). Такие регрессионные модели необходимо вычислять особенно тщательно. Итак, графики разброса и остатков являются крайне необходимым инструментом регрессионного анализа и должны быть его неотъемлемой частью. Без них регрессионный анализ не заслуживает доверия.

Рис. 26. Графики остатков для четырех наборов данных

Как избежать подводных камней при регрессионном анализе:

  • Анализ возможной взаимосвязи между переменными X и Y всегда начинайте с построения диаграммы разброса.
  • Прежде чем интерпретировать результаты регрессионного анализа, проверяйте условия его применимости.
  • Постройте график зависимости остатков от независимой переменной. Это позволит определить, насколько эмпирическая модель соответствует результатам наблюдения, и обнаружить нарушение постоянства дисперсии.
  • Для проверки предположения о нормальном распределении ошибок используйте гистограммы, диаграммы «ствол и листья», блочные диаграммы и графики нормального распределения.
  • Если условия применимости метода наименьших квадратов не выполняются, используйте альтернативные методы (например, модели квадратичной или множественной регрессии).
  • Если условия применимости метода наименьших квадратов выполняются, необходимо проверить гипотезу о статистической значимости коэффициентов регрессии и построить доверительные интервалы, содержащие математическое ожидание и предсказанное значение отклика.
  • Избегайте предсказывать значения зависимой переменной за пределами диапазона изменения независимой переменной.
  • Имейте в виду, что статистические зависимости не всегда являются причинно-следственными. Помните, что корреляция между переменными не означает наличия причинно-следственной зависимости между ними.

Резюме. Как показано на структурной схеме (рис. 27), в заметке описаны модель простой линейной регрессии, условия ее применимости и способы проверки этих условий. Рассмотрен t -критерий для проверки статистической значимости наклона регрессии. Для предсказания значений зависимой переменной использована регрессионная модель. Рассмотрен пример, связанный с выбором места для торговой точки, в котором исследуется зависимость годового объема продаж от площади магазина. Полученная информация позволяет точнее выбрать место для магазина и предсказать его годовой объем продаж. В следующих заметках будет продолжено обсуждение регрессионного анализа, а также рассмотрены модели множественной регрессии.

Рис. 27. Структурная схема заметки

Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 792–872

Если зависимая переменная является категорийной, необходимо применять логистическую регрессию.

Парная линейная регрессия

ПРАКТИКУМ

Парная линейная регрессия: Практикум. –

Изучение эконометрики предполагает приобретение студентами опыта построения эконометрических моделей, принятия решений о спецификации и идентификации модели, выбора метода оценки параметров модели, оценки ее качества, интерпретации результатов, получения прогнозных оценок и пр. Практикум поможет студентам приобрести практические навыки в этих вопросах.

Утверждено редакционно-издательским советом

Составитель: М.Б. Перова, д.э.н., профессор

Общие положения

Эконометрическое исследование начинается с теории, устанавливающей связь между явлениями. Из всего круга факторов, влияющих на результативный признак, выделяются наиболее существенные факторы. После того, как было выявлено наличие взаимосвязи между изучаемыми признаками, определяется точный вид этой зависимости с помощью регрессионного анализа.

Регрессионный анализ заключается в определении аналитического выражения (в определении функции), в котором изменение одной величины (результативного признака) обусловлено влиянием независимой величины (факторного признака). Количественно оценить данную взаимосвязь можно с помощью построения уравнения регрессии или регрессионной функции.

Базисной регрессионной моделью является модель парной (однофакторной) регрессии. Парная регрессия – уравнение связи двух переменных у и х :

где – зависимая переменная (результативный признак);

–независимая, объясняющая переменная (факторный признак).

В зависимости от характера изменения у с изменением х различают линейные и нелинейные регрессии.

Линейная регрессия

Данная регрессионная функция называется полиномом первой степени и используется для описания равномерно развивающихся во времени процессов.

Наличие случайного члена (ошибки регрессии) связано с воздействием на зависимую переменную других неучтенных в уравнении факторов, с возможной нелинейностью модели, ошибками измерения, следовательно, появлениеслучайной ошибки уравнения регрессии может быть обусловлено следующими объективными причинами :

1) нерепрезентативность выборки. В модель парной регрессии включается фактор, не способный полностью объяснить вариацию результативного признака, который может быть подвержен влиянию многих других факторов (пропущенных переменных) в гораздо большей степени. Наприем, заработная плата может зависеть, кроме квалификации, от уровня образования, стажа работы, пола и пр.;

2) существует вероятность того, что переменные, участвующие в модели, могут быть измерены с ошибкой. Например, данные по расходам семьи на питание составляются на основании записей участников опросов, которые, как предполагается, тщательно фиксируют свои ежедневные расходы. Разумеется, при этом возможны ошибки.

На основе выборочного наблюдения оценивается выборочное уравнение регрессии (линия регрессии ):

,

где
– оценки параметров уравнения регрессии (
).

Аналитическая форма зависимости между изучаемой парой признаков (регрессионная функция) определяется с помощью следующих методов :

    На основе теоретического и логического анализа природы изучаемых явлений, их социально-экономической сущности. Например, если изучается зависимость между доходами населения и размером вкладов населения в банки, то очевидно, что связь прямая.

    Графический метод , когда характер связи оценивается визуально.

Эту зависимость можно наглядно увидеть, если построить график, отложив на оси абсцисс значения признака х , а на оси ординат – значения признака у . Нанеся на график точки, соответствующие значениям х и у , получим корреляционное поле :

а) если точки беспорядочно разбросаны по всему полю – это говорит об отсутствии зависимости между этими признаками;

б) если точки концентрируются вокруг оси, идущей от нижнего левого угла в верхний правый – то имеется прямая зависимость между признаками;

в) если точки концентрируются вокруг оси, идущей от верхнего левого угла в нижний правый – то обратная зависимость между признаками.

Если на корреляционном поле соединим точки отрезками прямой, то получим ломаную линию с некоторой тенденцией к росту. Это будет эмпирическая линия связи или эмпирическая линия регрессии . По ее виду можно судить не только о наличии, но и о форме зависимости между изучаемыми признаками.

Построение уравнения парной регрессии

Построение уравнения регрессии сводится к оценке ее параметров. Эти оценки параметров могут быть найдены различными способами. Одним их них является метод наименьших квадратов (МНК). Суть метода состоит в следующем. Каждому значению соответствует эмпирическое (наблюдаемое) значение. Построив уравнение регрессии, например уравнение прямой линии, каждому значениюбудет соответствовать теоретическое (расчетное) значение. Наблюдаемые значенияне лежат в точности на линии регрессии, т.е. не совпадают с. Разность между фактическим и расчетным значениями зависимой переменной называетсяостатком :

МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических , т.е. сумма квадратов остатков, минимальна:

Для линейных уравнений и нелинейных, приводимых к линейным, решается следующая система относительно а и b :

где n – численность выборки.

Решив систему уравнений, получим значения а и b , что позволяет записать уравнение регрессии (регрессионное уравнение):

где – объясняющая (независимая) переменная;

–объясняемая (зависимая) переменная;

Линия регрессии проходит через точку (,) и выполняются равенства:

Можно воспользоваться готовыми формулами, которые вытекают из этой системы уравнений:

где – среднее значение зависимого признака;

–среднее значение независимого признака;

–среднее арифметическое значение произведения зависимого и независимого признаков;

–дисперсия независимого признака;

–ковариация между зависимым и независимым признаками.

Выборочной ковариацией двух переменных х , у называется средняя величина произведения отклонений этих переменных от своих средних

Параметр b при х имеет большое практическое значение и носит название коэффициента регрессии. Коэффициент регрессии показывает, на сколько единиц в среднем изменяется величина у х на 1 единицу своего измерения.

Знак параметра b в уравнении парной регрессии указывает на направление связи:

если
, то связь между изучаемыми показателями прямая, т.е. с увеличением факторного признаках увеличивается и результативный признак у , и наоборот;

если
, то связь между изучаемыми показателями обратная, т.е. с увеличением факторного признаках результативный признак у уменьшается, и наоборот.

Значение параметра а в уравнении парной регрессии в ряде случаев можно трактовать как начальное значение результативного признака у . Такая трактовка параметра а возможна только в том случае, если значение
имеет смысл.

После построения уравнения регрессии, наблюдаемые значения y можно представить как:

Остатки , как и ошибки, являются случайными величинами, однако они, в отличие от ошибок, наблюдаемы. Остаток есть та часть зависимой переменнойy , которую невозможно объяснить с помощью уравнения регрессии.

На основании уравнения регрессии могут быть вычислены теоретические значения у х для любых значений х .

В экономическом анализе часто используется понятие эластичности функции. Эластичность функции
рассчитывается как относительное изменениеy к относительному изменению x . Эластичность показывает, на сколько процентов изменяется функция
при изменении независимой переменной на 1%.

Поскольку эластичность линейной функции
не является постоянной величиной, а зависит отх , то обычно рассчитывается коэффициент эластичности как средний показатель эластичности.

Коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится величина результативного признака у при изменении факторного признака х на 1% от своего среднего значения:

где
– средние значения переменныхх и у в выборке.

Оценка качества построенной модели регрессии

Качество модели регрессии – адекватность построенной модели исходным (наблюдаемым) данным.

Чтобы измерить тесноту связи, т.е. измерить, насколько она близка к функциональной, нужно определить дисперсию, измеряющую отклонения у от у х и характеризующую остаточную вариацию, обусловленную прочими факторами. Они лежат в основе показателей, характеризующих качество модели регрессии.

Качество парной регрессии определяется с помощью коэффициентов, характеризующих

1) тесноту связи – индекса корреляции, парного линейного коэффициента корреляции;

2) ошибку аппроксимации;

3) качество уравнения регрессии и отдельных его параметров – средние квадратические ошибки уравнения регрессии в целом и отдельных его параметров.

Для уравнений регрессии любого вида определяется индекс корреляции , который характеризует только тесноту корреляционной зависимости, т.е. степень ее приближения к функциональной связи:

,

где – факторная (теоретическая) дисперсия;

–общая дисперсия.

Индекс корреляции принимает значения
, при этом,

если

если
– то связь между признакамих и у является функциональной, Чем ближе к 1, тем более тесной считается связь между изучаемыми признаками. Если
, то связь можно считать тесной

Дисперсии, необходимые для вычисления показателей тесноты связи вычисляются:

Общая дисперсия , измеряющая общую вариацию за счет действия всех факторов:

Факторная (теоретическая) дисперсия, измеряющая вариацию результативного признака у за счет действия факторного признака х :

Остаточная дисперсия , характеризующая вариацию признака у за счет всех факторов, кроме х (т.е. при исключенном х ):

Тогда по правилу сложения дисперсий:

Качество парной линейной регрессии может быть определено также с помощью парного линейного коэффициента корреляции :

,

где
– ковариация переменныхх и у ;

–среднеквадратическое отклонение независимого признака;

–среднеквадратическое отклонение зависимого признака.

Линейный коэффициент корреляции характеризует тесноту и направление связи между изучаемыми признаками. Он измеряется в пределах [-1; +1]:

если
– то связь между признаками прямая;

если
– то связь между признаками обратная;

если
– то связь между признаками отсутствует;

если
или
– то связь между признаками является функциональной, т.е. характеризуется полным соответствием междух и у . Чем ближе к 1, тем более тесной считается связь между изучаемыми признаками.

Если индекс корреляции (парный линейный коэффициент корреляции) возвести в квадрат, то получим коэффициент детерминации.

Коэффициент детерминации – представляет собой долю факторной дисперсии в общей и показывает, на сколько процентов вариация результативного признака у объясняется вариацией факторного признака х :

Он характеризует не всю вариацию у от факторного признака х , а лишь ту ее часть, которая соответствует линейному уравнению регрессии, т.е. показывает удельный вес вариации результативного признака, линейно связанной с вариацией факторного признака.

Величина
– доля вариации результативного признака, которую модель регрессии учесть не смогла.

Рассеяние точек корреляционного поля может быть очень велико, и вычисленное уравнение регрессии может давать большую погрешность в оценке анализируемого показателя.

Средняя ошибка аппроксимации показывает среднее отклонение расчетных значений от фактических:

Максимально допустимое значение 12–15%.

Мерой разброса зависимой переменной вокруг линии регрессии служит стандартная ошибка.Для всей совокупности наблюдаемых значений рассчитывается стандартная (среднеквадратическая) ошибка уравнения регрессии , которая представляет собой среднее квадратическое отклонение фактических значений у относительно теоретических значений, рассчитанных по уравнению регрессии у х .

,

где
– число степеней свободы;

m – число параметров уравнения регрессии (для уравнения прямой m =2).

Оценить величину средней квадратической ошибки можно сопоставив ее

а) со средним значение результативного признака у ;

б) со средним квадратическим отклонением признака у :

если
, то использование данного уравнения регрессии является целесообразным.

Отдельно оцениваются стандартные (среднеквадратические) ошибки параметров уравнения и индекса корреляции :

;
;
.

х – среднее квадратическое отклонение х .

Проверка значимости уравнения регрессии и показателей тесноты связи

Чтобы построенную модель можно было использовать для дальнейших экономических расчетов, проверки качества построенной модели недостаточно. Необходимо также проверить значимость (существенность) полученных с помощью метода наименьших квадратов оценок уравнения регрессии и показателя тесноты связи, т.е. необходимо проверить их на соответствие истинным параметрам взаимосвязи.

Это связано с тем, что исчисленные по ограниченной совокупности показатели сохраняют элемент случайности, свойственный индивидуальным значениям признака. Поэтому они являются лишь оценками определенной статистической закономерности. Необходима оценка степени точности и значимости (надежности, существенности) параметров регрессии. Под значимостью понимают вероятность того, что значение проверяемого параметра не равно нулю, не включает в себя величины противоположных знаков.

Проверка значимости – проверка предположения того, что параметры отличаются от нуля.

Оценка значимости парного уравнения регрессии сводится к проверке гипотез о значимости уравнения регрессии в целом и отдельных его параметров (a , b ), парного коэффициента детерминации или индекса корреляции.

В этом случае могут быть выдвинуты следующие основные гипотезы H 0 :

1)
– коэффициенты регрессии являются незначимыми и уравнение регрессии также является незначимым;

2)
– парный коэффициент детерминации незначим и уравнение регрессии также является незначимым.

Альтернативной (или обратной) выступают следующие гипотезы:

1)
– коэффициенты регрессии значимо отличаются от нуля, и построенное уравнение регрессии является значимым;

2)
– парный коэффициент детерминации значимо отличаются от нуля и построенное уравнение регрессии является значимым.

Проверка гипотезы о значимости уравнения парной регрессии

Для проверки гипотезы о статистической незначимости уравнения регрессии в целом и коэффициента детерминации используется F -критерий (критерий Фишера ):

или

где k 1 = m –1 ; k 2 = n m – число степеней свободы;

n – число единиц совокупности;

m – число параметров уравнения регрессии;

–факторная дисперсия;

–остаточная дисперсия.

Гипотеза проверяется следующим образом:

1) если фактическое (наблюдаемое) значение F -критерия больше критического (табличного) значения данного критерия
, то с вероятностью
основная гипотеза о незначимости уравнения регрессии или парного коэффициента детерминации отвергается, и уравнение регрессии признается значимым;

2) если фактическое (наблюдаемое) значение F-критерия меньше критического значения данного критерия
, то с вероятностью (
) основная гипотеза о незначимости уравнения регрессии или парного коэффициента детерминации принимается, и построенное уравнение регрессии признается незначимым.

Критическое значение F -критерия находится по соответствующим таблицам в зависимости от уровня значимости и числа степеней свободы
.

Число степеней свободы – показатель, который определяется как разность между объемом выборки (n ) и числом оцениваемых параметров по данной выборке (m ). Для модели парной регрессии число степеней свободы рассчитывается как
, так как по выборке оцениваются два параметра (
).

Уровень значимости – величина, определяемая
,

где – доверительная вероятность попадания оцениваемого параметра в доверительный интервал. Обычно принимается 0,95. Таким образом– это вероятность того, что оцениваемый параметр не попадет в доверительный интервал, равная 0,05 (5%) .

Тогда в случае оценки значимости уравнения парной регрессии критическое значение F-критерия вычисляется как
:

.

Проверка гипотезы о значимости параметров уравнения парной регрессии и индекса корреляции

При проверке значимости параметров уравнения (предположения того, что параметры отличаются от нуля) выдвигается основная гипотеза о незначимости полученных оценок (
. В качестве альтернативной (обратной) выдвигается гипотеза о значимости параметров уравнения (
).

Для проверки выдвинутых гипотез используется t -критерий (t -статистика) Стьюдента . Наблюдаемое значение t -критерия сравнивается со значением t -критерия, определяемого по таблице распределения Стьюдента (критическим значением). Критическое значение t -критерия
зависит от двух параметров: уровня значимостии числа степеней свободы
.

Выдвинутые гипотезы проверяются следующим образом:

1) если модуль наблюдаемого значения t -критерия больше критического значения t -критерия, т.е.
, то с вероятностью
основную гипотезу о незначимости параметров регрессии отвергают, т.е. параметры регрессии не равны 0;

2) если модуль наблюдаемого значения t -критерия меньше или равен критическому значению t -критерия, т.е.
, то с вероятностью
основная гипотеза о незначимости параметров регрессии принимается, т.е. параметры регрессии почти не отличаются от 0 или равны 0.

Оценка значимости коэффициентов регрессии с помощью критерия Стьюдента проводится путем сопоставления их оценок с величиной стандартной ошибки:

;

Для оценки статистической значимости индекса (линейного коэффициента) корреляции применяется также t -критерий Стьюдента.



Есть вопросы?

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: