Критерии оценки качества регрессионной модели, или какая модель хорошая, а какая лучше. Статистическая значимость логит и пробит-моделей и факторов этих моделей

Расчет параметров и построение регрессионных моделей

Корреляционный анализ

Его цель - определить характер связи (прямая, обратная) и силу связи (связь отсутствует, связь слабая, умеренная, заметная, сильная, весьма сильная, полная связь). Корреляционный анализ создает информацию о характере и степени выраженности связи (коэффициент корреляции), которая используется для отбора существенных факторов, а также для планирования эффективной последовательности расчета параметров регрессионных уравнений. При одном факторе вычисляют коэффициент корреляции, а при наличии нескольких факторов строят корреляционную матрицу, из которой выясняют два вида связей: (1) связи зависимой переменной с независимыми, (2) связи между самими независимыми.

Рассмотрение матрицы позволяет, во первых, выявить факторы, действительно влияющие на исследуемую зависимую переменную, и выстроить (ранжировать) их по убыванию связи; во-вторых, минимизировать число факторов в модели, исключив часть факторов, которые сильно или функционально связаны с другими факторами (речь идет о связях независимых переменных между собой).

Известно, что наиболее надежными на практике бывают одно- и двухфакторные модели.

Если будет обнаружено, что два фактора имеют сильную или полную связь между собой, то в регрессионное уравнение достаточно будет включить один из них.

Здесь стремятся отыскать наиболее точную меру выявленной связи, для того чтобы можно было прогнозировать, предсказывать значения зависимой величины Y, если будут известны значения независимых величин Х 1 , Х 2 ,.... Х n

Эту меру обобщенно выражают математической моделью линейной множественной регрессионной зависимости:

Y = a 0 + b 1 Х 1 + b 2 Х 2 + ... +b n X n

ЭВМ вычисляет параметры модели: свободный член а 0 (константа, или пересечение) и коэффициенты b п (коэффициенты регрессии). Величину у называют откликом, а Х 1 , Х 2 , .. ., Х п - факторами или предикторами.

После получения каждого варианта уравнения обязательной процедурой является оценка его статистической значимости, поскольку главная цель - получить уравнение наивысшей значимости. Однако в связи с тем, что расчеты выполняет ЭВМ, а решение на основе оценки значимости уравнения принимает исследователь (принять или отбросить уравнение), условно можно выделить третий этап этой человеко-машинной технологии как интеллектуальный немашинный этап, для которого почти все данные по оценке значимости уравнения подготавливает ЭВМ.

Статистическую значимость, т. е. пригодность постулируемой модели для использования ее в целях предсказания значений отклика. Для оценки качества полученной модели программа вычислила также целый ряд коэффициентов, которые обязан рассмотреть исследователь, сравнивая их с известными статистическими критериями и оценивая модель с точки зрения здравого смысла.



На этом этапе исключительно важную роль играют коэффициент детерминации и F-критерий значимости регрессии.

R Squared (R 2) - коэффициент детерминации - это квадрат множественного коэффициента корреляции между наблюдаемым значением Y и его теоретическим значением, вычисленным на основе модели с определенным набором факторов. Коэффициент детерминации измеряет действительность модели. Он может принимать значения от 0 до 1. Эта величина особенно полезна для сравнения ряда различных моделей и выбора наилучшей модели.

R 2 есть доля вариации прогнозной (теоретической) величины Y относительно наблюденных значений Y, объясненная за счет включенных в модель факторов. Очень хорошо, если R 2 >= 80%. Остальная доля теоретических значений У зависит от других, не участвовавших в модели факторов. Задача исследователя - находить факторы, увеличивающие R 2 , к давать объяснение вариаций прогноза, чтобы получить идеальное уравнение. Однако, коэффициент R 2 самое большее может достигнуть величины 1 (или 100%), когда все значения факторов различны. А если в данных есть повторяющиеся опыты, то величина R 2 не может достигнуть 1, как бы хороша ни была модель. Поэтому дубликаты данных следует удалять из исходной таблицы до начала расчета регрессии. Некоторые программные пакеты автоматически удаляют дубликат, оставляя лишь уникальные данные. Повторение одинаковых данных снижает надежность оценок модели. R 2 = 1 лишь при полном согласии экспериментальных (наблюденных) и теоретических (расчетных) данных, т. е. когда теоретические значения точно совпадают с наблюдаемыми. Однако это считается весьма маловероятным случаем.

Средствами регрессионного анализа, в т.ч. Excel, вычисляется F-критерий значимости регрессиидля уравнения в целом. Это рассчитанное по наблюденным данным значение Fp (F расчетный, наблюденный) следует сравнивать с соответствующим критическим значением Fк, (F критический, табличный) (см. приложение А). Fк исследователь выбирает из публикуемых статистических таблиц на заданном уровне вероятности (на том, на каком вычислялись параметры модели, например, 95%).

Если наблюденное значение Fp окажется меньше критического значения Fк, то уравнение нельзя считать значимым. В иной терминологии об этом же может быть сказано: не отвергнута нуль-гипотеза относительно значимости всех коэффициентов регрессии в постулируемой модели, т. е. коэффициенты практически равны нулю.

Электронная технология корреляционно-регрессионного анализа становится абсолютно бесполезной, если расчетные данные будут толковаться не вполне правильно.

Если полученная модель статистически значима, ее применяют для прогнозирования (предсказания), управления или объяснения.

Если же обнаружена незначимость, то модель отвергают, предполагая, что истинной окажется какая-то другая форма связи, которую надо поискать.

Оценка качества модели по критериям Стьюдента и Фишера будет проводиться путём сравнения расчетных значений с табличными.

Для оценки качества модели по критерию Стьюдента фактическое значение этого критерия (t набл)

сравнивается с критическим значением t кр которое берется из таблицы значений t с учетом заданного уровня значимости (α = 0.05 ) и числа степеней свободы (n - 2) .

Если t набл > t кр, то полученное значение коэффициента парной корреляции признается значимым.

Критическое значение при и равно .

Проверим значимость коэффициента детерминации, используя F ‑критерий Фишера.

Вычислим статистику F по формуле:

m = 3 – число параметров в уравнении регрессии;

N = 37 – число наблюдений в выборочной совокупности.

Математической моделью статистического распределения F -статистики является распределение Фишера с и степенями свободы. Критическое значение этой статистики при и и степенях свободы равно .

Критерий Фишера
F расч F кр Уравнение регрессии
8916.383 3.276 адекватно

Таким образом, модель объясняет 99.8% общей дисперсии признака Y . Это указывает на то, что подобранная модель является адекватной.


Расчет прогнозных значений и суммы квадратов отклонений.

Введем в ячейку Q2 формулу =$F$54*N2+$E$54*O2 (расчет прогнозных значений), затем скопируем ее в ячейки Q3:Q38 . В ячейку R2 формулу =(P2-Q2)^2 (расчет суммы квадратов отклонений), затем скопируем ее в ячейки R3:R38 , и подсчитаем сумму полученных значений в ячейке R39 .

X 2 X 5 Y y(x) (Y - y(x)) 2
605.1 2063.2 1626.7 1589.7 1367.523
620.1 2143.7 1602.5 1650.5 2303.318
2447.7 1880.7 1914.5 1144.709
862.1 2406.4 1982.7 1876.9 11189.53
958.4 2592.9 2026.7 106.5821
1488.9 2193.9 2180.4 182.342
1231.5 2529.7 2152.1 2020.4 17335.88
1429.6 2644.9 2133.1 8814.026
1679.5 2793.7 2344.4 2277.8 4436.216
1326.2 2669.2 2341.7 2135.8 42415.15
1456.8 2211.9 2282.7 5014.463
2523.6 2990.5 2629.8 2543.9 7377.384
2659.8 2017.5 2059.0 1722.637
923.8 2636.6 2009.4 2053.4 1939.955
1173.3 2943.1 2312.8 2792.24
1156.7 2890.9 2400.1 2272.4 16298.85
1450.2 3051.5 2508.1 2432.0 5784.146
1845.2 2684.1 2633.3 2581.453
1566.4 3052.6 2736.6 2449.8 82275.65
1729.7 3349.7 2824.5 2689.8 18152.31
1987.3 3456.3 2880.2 2804.9 5676.928
1902.7 3731.2 2812.9 2992.6 32297.9
1839.1 3517.8 2704.2 2828.0 15336.69
3953.7 3823.1 3224.2 3358.1 17922.28
1351.2 3482.9 2584.7 2731.6 21584.07
1185.3 3347.6 2466.7 2609.0 20246.66
1715.5 3585.4 2928.3 2859.2 4768.047
1536.4 3678.3 3036.4 2900.8 18389.81
1823.1 3801.6 3021.1 3032.3 124.6986
2452.1 4002.1 3237.6 3269.8 1034.273
2076.6 3990.3 3247.1 3206.5 1647.633
2129.2 3436.9 3375.5 3767.099
2502.7 4154.2 3472.8 3387.8 7220.377
2238.7 4322.7 3504.1 3472.0 1028.291
2417.6 4623.1 3357.1 3716.7 129321.2
3838.4 4817.9 4034.7 4065.3 937.7363
1468.6 3450.4 3585.0 18128.14
532666.2



Форма отчета

Варианты

Тарифы на размещение рекламы и характеристики журналов
Название журнала Y, тариф (одна страница цветной рекламы), дол. X 1 , планируемая аудитория, тыс. человек Х 2 , процент мужчин Х 3 , медиана дохода семьи, дол
Audubon 25 315 51,1 38 787
Better Homes & Gardens 198 000 34 797 22,1
Business Week 68,1 63 667
Cosmopolitan 15 452 17,3 44 237
Elle 55 540 12,5 47 211
Entrepreneur 40 355 2 476 60,4 47 579
Esquire 71,3 44 715
Family Circle 147 500 24 539 38 759
first For Women 28 059 3 856 3,6 43 850
Forbes 59 340 68,8 66 606
Fortune 3 891 68,8 58 402
Glamour 85 080 7,8
Goff Digest 6 250 78,9
Good Housekeeping 166 080 25 306 12,6 38 335
Gourmet 49 640 29,6 57 060
Harper"s Bazaar 52 805 2 621 11,5 44 992
Inc. 70 825 66,9
Kiplinger"s Personal Finance 65,1 63 876
Ladies" Home Journal 127 000 6,8
Life 63 750 14 220 46,9
Mademoiselle 55 910
Martha Stewart"s Living 93 328 4 849 16,6
McCalls 7,6 33 823
Money 98 250 60,6
Motor Trend 79 800 5 281 88,5 48 739
National Geographic 44 326
Natural History
Newsweek 148 800 20 720 53,5 53 025
Parents Magazine 72 820 18,2
PC Computing 40 675 57 916
People 125 000 33 668
Popular Mechanics 86,9
Reader"s Digest 42,4 38 060
Redbook 95 785 13 212 8,9 41 156
Rolling Stone 78 920 8 638 59,8 43 212
Runner"s World 36 850 2 078 62,9 60 222
Scientific American 37 500 2 704
Seventeen 71 115 5 738 37 034
Ski 32 480 2 249 64,5 58 629
Smart Money 42 900 2 224 63,4
Smithsonian 73 075 8 253 47,9
Soap Opera Digest 35 070 7 227 10,3
Sports Illustrated 162 000 78,8 45 897
Sunset 56 000 5 276 38,7 52 524
Teen 53 250 3 057 15,4
The New Yorker 62 435 3 223 48,9
Time 162 000 22 798 52,4
True Story 12,2
TV Guide 42,8 37 396
U.S. News & World Report 98 644 9 825 57,5 52 018
Vanity Fair 67 890 4 307 27,7
Vogue 63 900 12,9 44 242
Woman"s Day 137 000 22 747 6,7
Working Woman 87 500 6,3 44 674
YM 73 270 14,4 43 696
Среднее значение 83 534 39,7 47 710
Среднеквадратическое отклонение 25,9 10 225

Контрольные вопросы

Парная регрессия

1. Что понимается под парной регрессией?

2. Какие задачи решаются при построении уравнения регрессии?

3. Какие методы применяются для выбора вида модели регрессии?

4. Какие функции чаще всего используются для построения уравнения пар-

5. ной регрессии?

6. Какой вид имеет система нормальных уравнений метода наименьших

7. квадратов в случае линейной регрессии?

8. Как вычисляется и что показывает индекс детерминации?

9. Как проверяется значимость уравнения регрессии?

10. Как проверяется значимость коэффициентов уравнения регрессии?

11. Понятие доверительного интервала для коэффициентов регрессии.

12. Понятие точечного и интервального прогноза по уравнению линейной регрессии.

13. Как вычисляются и что показывают коэффициент эластичности Э , средний коэффициент эластичности Ý ?

Множественная регрессия

1. Что понимается под множественной регрессией?

2. Чем отличается модель множественной линейной регрессии от модели парной линейной регрессии? Запишите уравнение множественной линейной регрессии.

3. Какие задачи решаются при построении уравнения регрессии?

4. Какие задачи решаются при спецификации модели?

5. Какие требования предъявляются к факторам, включаемым в уравнение регрессии?

6. Что понимается под коллинеарностью факторов?

7. Как проверяется наличие коллинеарности?

8. Какие подходы применяются для преодоления межфакторной корреляции?

9. Какие функции чаще используются для построения уравнения множественной регрессии?

10. По какой формуле вычисляется индекс множественной корреляции?

11. Как вычисляются индекс множественной детерминации?

12. Что такое коэффициент детерминации? Как с его помощью оценивается адекватность модели?

13. Что означает низкое значение коэффициента множественной корреляции?

14. Как проверяется значимость уравнения регрессии и отдельных коэффициентов?

15. Как строятся гипотезы о проверке значимости параметров модели?

16. Как строятся частные уравнения регрессии?

17. Как вычисляются средние частные коэффициенты эластичности?

18. Как строятся доверительные интервалы для параметров модели?

19. Что понимается под гомоскедастичностью ряда остатков?

20. Как проверяется гипотеза о гомоскедастичности ряда остатков?

21. Как называют зависимую переменную в модели?

22. Как называют независимые переменные в модели?

23. Назовите основной метод построения модели.

24. Запишите модель множественной регрессии в общем виде с 3 незав.переменными

25. Запишите сумму квадратов отклонений модели(формула)

26. Что такое RSS?(определение и формула)

27. Как проверить значимость построенной модели в целом?

28. Как проверить значимость коэффициента при переменной X_3?

29. Сфомулируйте экономический смысл коэффициента например при переменно X_5

30. Что такое "короткая модель"множественной регрессии

Литература

1. Шанченко, Н. И.Эконометрика: лабораторный практикум: учебное пособие /Н. И. Шанченко. – Ульяновск: УлГТУ, 2011. – 117 с.

2. Давнис В.В., Тинякова В.И. Компьютерный практикум по эконометрическому моделированию. Воронеж, 2003. - 63 с.


Исходные данные характеризуют цену продажи некоторого товара в отдельные моменты времени. Необходимо построить регрессионную модель динамики изменения данного показателя. Факторы, предположительно оказывающие влияние на данную величину, включают цену продажи товара-субститута, объем продажи товара, объем затрат на рекламу, средние затраты на рекламу.

Цена продажи – зависимая величина, обозначим ее Y.

Факторы, влияющие (предположительно) на величину Y обозначим X i: X 1 – цена товара-субститута, X­ 2 – объем продаж, X­ 3 – объем затрат на рекламу, X­ 4 - средние затраты на рекламу.

Исходные данные

Лекция 2. Корреляционно-регрессионный анализ. Парная регрессия

1. Сущность корреляционно-регрессионного анализа и его задачи.

2. Определение регрессии и ее виды.

3. Особенности спецификации модели. Причины существования случайной величины.

4. Методы выбора парной регрессии.

5. Метод наименьших квадратов.

6. Показатели измерения тесноты и силы связи.

7. Оценки статистической значимости.

8. Прогнозируемое значение переменной у и доверительные интервалы прогноза.

1. Сущность корреляционно-регрессионного анализа и его задачи. Экономические явления, будучи весьма разнообразными, характеризуются множеством признаков, отражающих определенные свойства этих процессов и явлений и подверженных взаимообусловленным изменениям. В одних случаях зависимость между признаками оказывается очень тесной (например, часовая выработка работника и его заработная плата), а в других случаях такая связь не выражена вовсе или крайне слаба (например, пол студентов и их успеваемость). Чем теснее связь между этими признаками, тем точнее принимаемые решения.

Различают два типа зависимостей между явлениями и их признаками:

    функциональная (детерминированная, причинная) зависимость . Задается в виде формулы, которая каждому значению одной переменной ставит в соответствие строго определенное значение другой переменной (воздействием случайных факторов при этом пренебрегают). Иными словами,функциональная зависимость – это связь, при которой каждому значению независимой переменной х соответствует точно определенное значение зависимой переменной у. В экономике функциональные связи между переменными являются исключениями из общего правила;

    статистическая (стохастическая, недетерминированная) зависимость – это связь переменных, на которую накладывается воздействие случайных факторов, т.е. это связь, при которой каждому значению независимой переменной х соответствует множество значений зависимой переменной у, причем заранее неизвестно, какое именно значение примет у.

Частным случаем статистической зависимости является корреляционная зависимость.

Корреляционная зависимость – это связь, при которой каждому значению независимой переменной х соответствует определенное математическое ожидание (среднее значение) зависимой переменной у.

Корреляционная зависимость является «неполной» зависимостью, которая проявляется не в каждом отдельном случае, а только в средних величинах при достаточно большом числе случаев. Например, известно, что повышение квалификации работника ведет к росту производительности труда. Это утверждение часто подтверждается на практике, но не означает, что у двух и более работников одного разряда / уровня, занятых аналогичным процессом, будет одинаковая производительность труда.

Корреляционная зависимость исследуется с помощью методы корреляционного и регрессионного анализа.

Корреляционно-регрессионный анализ позволяет установить тесноту, направление связи и форму этой связи между переменными, т.е. ее аналитическое выражение.

Основная задача корреляционного анализа состоит в количественном определении тесноты связи между двумя признаками при парной связи и между результативными и несколькими факторными признаками при многофакторной связи и статистической оценке надежности установленной связи.

2. Определение регрессии и ее виды. Регрессионный анализ является основным математико-статистическим инструментом в эконометрике.Регрессией принято называть зависимость среднего значения какой-либо величины (y) от некоторой другой величины или от нескольких величин (x i).

В зависимости от количества факторов, включенных в уравнение регрессии, принято различать простую (парную) и множественную регрессии.

Простая (парная) регрессия представляет собой модель, где среднее значение зависимой (объясняемой) переменной у рассматривается как функция одной независимой (объясняющей) переменной х. В неявном виде парная регрессия – это модель вида:

В явном виде:

,

где aиb– оценки коэффициентов регрессии.

Множественная регрессия представляет собой модель, где среднее значение зависимой (объясняемой) переменной у рассматривается как функция нескольких независимых (объясняющих) переменных х 1 , х 2 , … х n . В неявном виде парная регрессия – это модель вида:

.

В явном виде:

где aиb 1 ,b 2 ,b n – оценки коэффициентов регрессии.

Примером такой модели может служить зависимость заработной платы работника от его возраста, образования, квалификации, стажа, отрасли и т.д.

Относительно формы зависимости различают:

      линейную регрессию;

      нелинейную регрессию, предполагающую существование нелинейных соотношений между факторами, выражающихся соответствующей нелинейной функцией. Зачастую нелинейные по внешнему виду модели могут быть приведены к линейному виду, что позволяет их относить к классу линейных.

3. Особенности спецификации модели. Причины существования случайной величины. Любое эконометрическое исследование начинается соспецификации модели , т.е. с формулировки вида модели, исходя из соответствующей теории связи между переменными.

Прежде всего из всего круга факторов, влияющих на результативный признак, необходимо выделить наиболее существенно влияющие факторы. Парная регрессия достаточна, если имеется доминирующий фактор, который и используется в качестве объясняющей переменной. Уравнение простой регрессии характеризует связь между двумя переменными, которая проявляется как некоторая закономерность лишь в среднем в целом по совокупности наблюдений. В уравнении регрессии корреляционная связь представляется в виде функциональной зависимости, выраженной соответствующей математической функцией. Практически в каждом отдельном случае величина у складывается из двух слагаемых:

,

где у – фактическое значение результативного признака;

– теоретическое значении результативного признака, найденное исходя из уравнения регрессии;

случайная величина, характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнению регрессии.

Случайная величина называется также возмущением. Она включает влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения. Присутствие в модели случайной величины порождено тремя источниками:

    спецификацией модели,

    выборочным характером исходных данных,

    особенностями измерения переменных.

К ошибкам спецификации будут относиться не только неправильный выбор той или иной математической функции, но и недоучет в уравнении регрессии какого-либо существенного фактора (использование парной регрессии вместо множественной).

Наряду с ошибками спецификации могут иметь место ошибки выборки, поскольку исследователь чаще всего имеет дело с выборочными данными при установлении закономерностей связи между признаками. Ошибки выборки имеют место и в силу неоднородности данных в исходной статистической совокупности, что, как правило, бывает при изучении экономических процессов. Если совокупность неоднородна, то уравнение регрессии не имеет практического смысла. Для получения хорошего результата обычно исключают из совокупности единицы с аномальными значениями исследуемых признаков. И в этом случае результаты регрессии представляют собой выборочные характеристики. Исходных данных

Однако наибольшую опасность в практическом использовании методов регрессии представляют ошибки измерения. Если ошибки спецификации можно уменьшить, изменяя форму модели (вид математической формулы), а ошибки выборки – увеличивая объем исходных данных, то ошибки измерения практически сводят на нет все усилия по количественной оценке связи между признаками.

4. Методы выбора парной регрессии. Предполагая, что ошибки измерения сведены к минимуму, основное внимание в эконометрических исследованиях отводится ошибкам спецификации модели. В парной регрессии выбор вида математической функции
может быть осуществлен тремя методами:

    графическим;

    аналитическим, т.е. исходя из теории изучаемой взаимосвязи;

    экспериментальным.

При изучении зависимости между двумя признаками графический метод подбора вида уравнения регрессии достаточно нагляден. Он основан на поле корреляции.Основные типы кривых, используемых при количественной оценке связей




Класс математических функций для описания связи двух переменных достаточно широк, также используются и другие типы кривых.

Аналитический метод выбор типа уравнения регрессии основан на изучении материальной природы связи исследуемых признаков, а также визуальной оценке характера связи. Т.е. если мы говорим о кривой Лаффера, показывающей зависимость между прогрессивностью налогообложения и доходами бюджета, то речь идет о параболической кривой, а в микроанализе изокванты представляют собой гиперболы.

5. Метод наименьших квадратов. Линейная регрессия находит широкое применение в эконометрике в виду четкой экономической интерпретации ее параметров и сводится к нахождению уравнения вида:

,

где х – объясняющая (независимая) переменная – неслучайная величина;

у – объясняемая (зависимая) величина;

– случайный член (ошибка регрессии);

 и β – параметры уравнения.

Теоретические значения представляют линию регрессии. Построение линейной регрессии сводится к оценке параметров a и b уравнения
.

Оценки параметров линейной регрессии могут быть найдены разными способами.

Метод наименьших квадратов (МНК) – классический подход к оцениванию параметров линейной регрессии.

Обратимся к полю корреляции.

По графику можно определить значения параметров. Параметр а – точка пересечения линии регрессии с осью Оу, а параметр b оценивается исходя из угла наклона линии регрессии , где dy – приращение фактора у, а dx – приращение фактора х.

МНК позволяет получить такие оценки параметров a и b, при которых сумма квадратов отклонений фактических значений результативного признака у от расчетных (теоретических) значений минимальна:

Т.е. линия регрессии выбирается таким образом, чтобы сумма квадратов расстояний по вертикали между точками и этой линией была бы минимальна.

где
.

Вычислим частные производные по каждому из параметров a и b.

Разделим обе части уравнений на n и получим систему уравнений, из которой можно вычислить оба параметра.

Из МНК можно получить две другие формулы для нахождения параметра b:

1.

2.
или

Оценка параметра а находится одинаковым способом во всех случаях:

.

Параметр b называется коэффициентом регрессии и показывает, на сколько единиц в среднем изменится переменная у при увеличении переменной х на 1 единицу. Знак при коэффициенте регрессии показывает направление связи: при b < 0 – связь обратная, при b > 0 – связь прямая.

Параметр а формально представляет собой значение у при х = 0. Если х не имеет или не может иметь нулевого значения, то а не имеет смысла. Он может и не иметь экономического смысла. При а<0 экономическая интерпретация может оказаться абсурдной.

Интерпретировать можно знак при параметре а. Если а>0, то относительное изменение результата происходит медленнее, чем изменение фактора. Если а<0, то изменение результата опережает изменение фактора.

6. Показатели измерения тесноты и силы связи . Уравнение регрессии всегда дополняется показателем тесноты связи.

Качество парной регрессии определяется с помощью парного линейного коэффициента корреляции:

или

,

где
,

– среднеквадратические отклонения, которые показывают разброс значений в множестве значений х и у. Большое значение среднеквадратического отклонения показывает большой разброс значений в представленном множестве со средней величиной множества; маленькое значение, соответственно, показывает, что значения в множестве сгруппированы вокруг среднего значения.

Линейный коэффициент корреляции находится в пределах:

1 < < 1.

Если коэффициент корреляции положительный (рис. а), то связь между признаками прямая, т.е. с увеличением (уменьшением) x признак y увеличивается (уменьшается). Если коэффициент корреляции отрицательный (рис. б), то связь между признаками обратная, т.е. с увеличением (уменьшением) x признак y уменьшается (увеличивается).

Чем ближе значение коэффициента корреляции к 1, тем теснее связь (рис. б), чем ближе к 0, тем слабее (рис. а).

Если 0 < || <0,3, то связь между признаками практически отсутствует,

если 0,3 < || <0,5, то связь слабая,

если 0,5 < || <0,7, то связь умеренная,

если 0,7 < || <1, то связь сильная.

И, наконец, при r = 0 линейная корреляционная связь отсутствует. При этом линия регрессии параллельна оси Ох.

Следует отметить, что величина линейного коэффициента корреляции оценивает тесноту связи рассматриваемых признаков в ее линейной форме. Поэтому близость абсолютной величины коэффициента корреляции к нулю еще не означает отсутствие связи между признаками. При иной спецификации модели связь между признаками может оказаться достаточно тесной.

Для оценки качества подбора линейной функции рассчитывается квадрат линейного коэффициента корреляции R 2 , называемыйкоэффициентом детерминации . Он характеризует долю дисперсии результативного признака у, объясняемую регрессией, в общей дисперсии результативного признака.

Соответственно величина 1 – R 2 характеризует долю дисперсии у, вызванную влиянием остальных не учтенных в модели факторов.

В силу своего определения R 2 принимает значения между 0 и 1, т.е.

0 ≤ R 2 ≤ 1.

Если R 2 = 0, то это означает, что регрессия ничего не дает, т.е х не улучшает качество предсказания у по сравнению с тривиальным предсказанием
.

Другой крайний вариант R 2 = 1 означает точную подгонку модели: все точки наблюдений лежат на регрессионной прямой (все=0). Чем ближеR 2 к 1, тем лучше качество подгонки модели и тем точнее.

Параметре регрессии b хотя и показывает, на сколько единиц в среднем изменится переменная у при увеличении переменной х на 1 единицу, но использовать для непосредственной оценки влияния факторного признака на результативный нельзя из-за различия единиц измерения исследуемых показателей. Для этих целей используют коэффициент эластичности . Коэффициент эластичности показывает, на сколько процентов изменяется результативный признак у при изменении факторного признака х на 1%, и вычисляется по формуле:

,

где
– первая производная, характеризующая соотношение приростов результата и фактора для соответствующей формы связи.

В силу того того, что коэффициент эластичности для линейной функции не является величиной постоянной, а зависит от соответствующего значения х, то обычно рассчитывается средний коэффициент эластичности:

.

Несмотря на широкое использование в эконометрике коэффициентов эластичности, возможны случаи, когда их расчет не имеет экономического смысла. Это происходит тогда, когда для рассматриваемых признаков бессмысленно определение изменения значений в процентах (например, на сколько процентов изменится урожайность пшеницу, если качество почвы улучшится на 1%).

Коэффициенты эластичности для ряда математических функций

7. Оценки статистической значимости. После того как найдено уравнение регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

Оценка значимости уравнения в целом. Оценка значимости уравнения регрессии в целом дается с помощьюF-критерия Фишера и служит для выяснения того, что полученное значение коэффициента детерминации
неслучайно, т.е. соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.

В парной линейной регрессии проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

Для проверки значимости уравнения регрессии в целом используют F-критерий Фишера. В случае парной линейной регрессии значимость модели регрессии проверяется по следующей формуле:

,

где m– количество объясняющих факторных признаков, т.е. х.

Наблюдаемые значения сравниваются с табличными.

,

где α – уровень значимости, соответствующий доверительному интервалу;

Если при заданном уровне значимости F набл >F крит, то модель считается значимой, гипотеза о случайной природе оцениваемых характеристик отрицается и признается их статистическая значимость и надежность.

Если F набл

Стандартная ошибка оценки уравнения регрессии. Хотя МНК дает нам линию регрессии, которая обеспечивает минимум вариации, не все наблюдения совпадают с линией регрессии. Поэтому необходима статистическая мера вариации фактических значений у от предсказанных значений. Мера вариации относительно линии регрессии называетсястандартной ошибкой оценки .

Стандартная ошибка оценки определяется как:

,

где у – фактические значения зависимой переменной для заданных значений независимой переменной;

– теоретические / предсказанные значения зависимой переменной для заданных значений независимой переменной;

m – количество объясняющих переменных х.

Данный коэффициент характеризует меру вариации фактических данных вокруг линии регрессии.

Проверка значимости параметров. Кроме того, проверяется значимость параметров регрессии. Проверка значимости параметров отдельных коэффициентов регрессии проводится по t-критерию Стьюдента путем проверки гипотезы о равенстве нулю каждого коэффициента регрессии. При этом выясняют, не являются ли полученные значения параметров результатом действия случайных величин.

Значимость коэффициентов регрессии проверяется по следующим формулам. Для коэффициента b:

,

где S b – стандартная ошибка коэффициента b, которая в свою очередь определяется как:

.

Для коэффициента а аналогично:

,

где S a – стандартная ошибка свободного члена а, также находится по формуле:

.

Расчетные значения t-критерия сравниваются с табличным значением критерия , где k = n–m–1 степеням свободы и соответствующем уровне значимости α.

Если расчетное значение t-критерия превосходит его табличное значение, то параметр признается значимым, т.е. не является случайно найденным.

8. Прогнозируемое значение переменной у и доверительные интервалы прогноза. Точечный прогноз заключается в получении прогнозного значения Y*, которое определяется путем подстановки в уравнение регрессии
соответствующего прогнозного значения X*:

.

Вероятность реализации точечного прогноза практически равна нулю, поэтому рассчитывается доверительный интервал прогноза с большей надежностью.

Интервальный прогноз заключается в построении доверительного интервала прогноза, т.е. нижней и верхней – минимально и максимально возможных границ интервала, содержащего точную величину для прогнозного значения Y* с заданной вероятностью, т.е.:

У min

Доверительные интервалы прогноза определяются по следующим формулам:

где
– стандартная ошибка предсказаний для парной регрессии.

Доверительный интервал для коэффициентов регрессии определяются как:

Так как коэффициент регрессии в эконометрических исследованиях имеет четкую экономическую интерпретацию, то доверительные границы интервала для коэффициента регрессии не должны содержать противоречивых результатов, например, -10b40 – такого рода запись указывает на то, что истинное значение коэффициента регрессии одновременно содержит положительные и отрицательные величины и даже ноль, чего быть не может. Тогда параметр принимается равным нулю.

Проверка значимости модели при помощи теста отношения правдоподобия(тест Вальда), начинается с выдвижения основной гипотезы:

Для проверки данной гипотезы вычисляется выборочная статистика

Здесь lnL величина максимального значения логарифма функции правдоподобия, а lnL0- величина логарифма функции правдоподобия в случае справедливости основной гипотезы.

Если основная гипотеза верна, то выборочная статистика (4.7.1) распределена по закону 2 с (m-1) степенью свободы. Границу правосторонней критической области К2 ищут по таблицам критических точек хи-квадрат по уровню значимости (1-б) и (m-1) степени свободы. Если выполняется неравенство:

то основную гипотезу отвергают, принимают альтернативную гипотезу и говорят, что модель статистически значима. В противном случае принимают гипотезу о не значимости модели и переходят к ее пересмотру.

Для моделей бинарного выбора, значимость факторов проверяется при помощи тестирования для каждого фактора хi, i=1,…, (m-1) гипотез вида:

Выборочные статистики, которые используются для тестирования этих гипотез, имеют асимптотически нормальное распределение и называются z-статистиками. Границу двусторонней критической области ищут по таблицам Лапласа по заданному уровню значимости (1-б).

Если выполняется неравенство:

К 1

то принимают основную гипотезу о незначимом отличии от нуля коэффициента i и делают вывод, что соответствующий ему фактор незначим для модели.

Для моделей бинарного выбора не определяется понятие коэффициента детерминации. Однако для них определяют так называемый псевдо коэффициент детерминации, который уже не характеризует объясняющую силу модели

Определение 4.7.1. Псевдо - коэффициентом детерминации называют следующую величину:

Определение 4.7.2. Индексом отношения правдоподобия Макфаддена (McFadden) называют характеристику:

Следует подчеркнуть, что если параметры модели бинарного выбора незначимо отличаются от нуля, то оба введенных коэффициента равны нулю.

На лекции мы рассмотрели нелинейные регрессионные модели, в частности, модели для бинарной зависимой переменной. Эти модели мы рассмотрели для двух функций регрессий: логит (использовали логистическую функцию) и пробит (использовали функцию распределения стандартного нормального закона распределения). Оценки параметров таких функций регрессии получают при помощи метода максимального правдоподобия. Модель тестируют при помощи теста Вальда, в основе которого статистика, имеющая хи-квадрат распределение. При изучении многофакторных регрессионных моделей мы интерпретировали оценки параметров вj, как предельный эффект влияния независимых переменных на у. Вернемся к моделям бинарного выбора. Если мы попытаемся найти производную от P{Y=1|X}, то придем к следующему выражению:

где Z= 0+1х1+...m-1xm-1.

По теореме о производной сложной функции, и из свойства плотности (производная от функции распределения это плотность распределения f(Z)), получаем:

или, используя второе обозначение для оценок параметров:

P{Y=1|X}=вjf(Z)

Как и раньше, через вj обозначены оценки неизвестных параметров.

Тогда, мы можем рассуждать следующим образом: плотность распределения всегда неотрицательна, поэтому знак производной

будет зависеть только от знака оценки параметров, но будет являться функцией всех независимых переменных. Причем, если оценка параметра будет положительной, то увеличение переменной xj будет приводить к увеличению вероятности

а если оценка параметра будет отрицательной, то, соответственно, к уменьшению указанной вероятности.

Замечание. Если фактор х является бинарной переменной, то для него нельзя ввести понятие предельного эффекта.

Для каждой переменной х (количественной!!!) вводят так называемый средний предельный эффект. Для этого вычисляют выборочные средние для количественных переменных и процент «1» для бинарных, и подставляют их в выражение для плотности распределения вместо переменных.

Еще один вопрос для обсуждения: как после оценивания параметров логит (пробит) модели прогнозировать значение у? Поступают, например, следующим образом. Подставляют найденные значения оценок параметров и значения хj в Z и вычисляют значение переменной. Если Z>0, то считают, что У=1, если Z<0, то считают, что У=0. Замечание. Мы рассмотрели ситуацию, когда переменная у была измерена в номинальной шкале, но принимала всего два значения: 0 и 1. В общем случае, когда у может принимать несколько значений, например 0, 1, 2, 3, используют множественный (по у!!) логит или пробит. Кроме того, у может быть измерен в порядковой шкале, тогда в Стате используют порядковый логит (пробит) ologit (oprobit).

Замечание. Очень часто в исследованиях приходится проводить исследования на усеченной выборке. Например, если изучают доходы домохозяйств, то бывают ситуацию, когда респондентов с очень большим доходом (например, больше 1 млн.рубл.) следует исключить из исследования, то есть

То в таких случаях используют Тобит-модели.

F(0+1х1+...m-1xm-1)

F(0+1х1+...m-1xm-1)

F(0+1х1+...m-1xm-1)

F(0+1х1+...m-1xm-1) - (F(0+1х1+...m-1xm-1))2

Задание . По территориям региона приводятся данные за 199Х г.;
Номер региона Среднедушевой прожиточный минимум в день одного трудоспособного, руб., х Среднедневная заработная плата, руб., у
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173
Требуется:
1. Построить линейное уравнение парной регрессии у от х.
2. Рассчитать линейный коэффициент парной корреляции и среднюю ошибку аппроксимации.
3. Оценить статистическую значимость параметров регрессии и корреляции.
4. Выполнить прогноз заработной платы у при прогнозном значении среднедушевого прожиточного минимума х, составляющем 107% от среднего уровня.
5. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.

Решение находим с помощью калькулятора .
Использование графического метода .
Этот метод применяют для наглядного изображения формы связи между изучаемыми экономическими показателями. Для этого в прямоугольной системе координат строят график, по оси ординат откладывают индивидуальные значения результативного признака Y, а по оси абсцисс - индивидуальные значения факторного признака X.
Совокупность точек результативного и факторного признаков называется полем корреляции .
На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.
Линейное уравнение регрессии имеет вид y = bx + a + ε
Здесь ε - случайная ошибка (отклонение, возмущение).
Причины существования случайной ошибки:
1. Невключение в регрессионную модель значимых объясняющих переменных;
2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.
3. Неправильное описание структуры модели;
4. Неправильная функциональная спецификация;
5. Ошибки измерения.
Так как отклонения ε i для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то:
1) по наблюдениям x i и y i можно получить только оценки параметров α и β
2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;
Тогда оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где e i – наблюдаемые значения (оценки) ошибок ε i , а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.
Для оценки параметров α и β - используют МНК (метод наименьших квадратов).
Система нормальных уравнений.
Для наших данных система уравнений имеет вид
Из первого уравнения выражаем а и подставим во второе уравнение
Получаем b = 0.92, a = 76.98
Уравнение регрессии:
y = 0.92 x + 76.98

1. Параметры уравнения регрессии.
Выборочные средние.



Выборочные дисперсии:


Среднеквадратическое отклонение


Коэффициент корреляции
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:

Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока :
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
В нашем примере связь между среднедневной заработной платы и среднедушевым прожиточным минимумом высокая и прямая.
1.2. Уравнение регрессии (оценка уравнения регрессии).

Линейное уравнение регрессии имеет вид y = 0.92 x + 76.98
Коэффициентам уравнения линейной регрессии можно придать экономический смысл.
Коэффициент b = 0.92 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 руб. среднедушевого прожиточного минимума в день среднедневная заработная плата повышается в среднем на 0.92.
Коэффициент a = 76.98 формально показывает прогнозируемый уровень Среднедневная заработная плата, но только в том случае, если х=0 находится близко с выборочными значениями.
Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.
Связь между среднедневной заработной платы и среднедушевого прожиточного минимума в день определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе - обратная). В нашем примере связь прямая.
Коэффициент эластичности.
Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.
Для этих целей вычисляются коэффициенты эластичности и бета - коэффициенты. Коэффициент эластичности находится по формуле:


Он показывает, на сколько процентов в среднем изменяется результативный признак у при изменении факторного признака х на 1%. Он не учитывает степень колеблемости факторов.
Коэффициент эластичности меньше 1. Следовательно, при изменении среднедушевого прожиточного минимума в день на 1%, среднедневная заработная плата изменится менее чем на 1%. Другими словами - влияние среднедушевого прожиточного минимума Х на среднедневную заработную плату Y не существенно.
Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:

Т.е. увеличение x на величину среднеквадратического отклонения этого показателя приведет к увеличению средней среднедневной заработной платы Y на 0.721 среднеквадратичного отклонения этого показателя.
1.4. Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации.


Поскольку ошибка меньше 15%, то данное уравнение можно использовать в качестве регрессии.
Коэффициент детерминации.
Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.
Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.
R 2 = 0.72 2 = 0.5199
т.е. в 51.99 % случаев изменения среднедушевого прожиточного минимума х приводят к изменению среднедневной заработной платы y. Другими словами - точность подбора уравнения регрессии - средняя. Остальные 48.01% изменения среднедневной заработной платы Y объясняются факторами, не учтенными в модели.

x y x 2 y 2 x o y y(x) (y i -y cp) 2 (y-y(x)) 2 (x i -x cp) 2 |y - y x |:y
78 133 6084 17689 10374 148,77 517,56 248,7 57,51 0,1186
82 148 6724 21904 12136 152,45 60,06 19,82 12,84 0,0301
87 134 7569 17956 11658 157,05 473,06 531,48 2,01 0,172
79 154 6241 23716 12166 149,69 3,06 18,57 43,34 0,028
89 162 7921 26244 14418 158,89 39,06 9,64 11,67 0,0192
106 195 11236 38025 20670 174,54 1540,56 418,52 416,84 0,1049
67 139 4489 19321 9313 138,65 280,56 0,1258 345,34 0,0026
88 158 7744 24964 13904 157,97 5,06 0,0007 5,84 0,0002
73 152 5329 23104 11096 144,17 14,06 61,34 158,34 0,0515
87 162 7569 26244 14094 157,05 39,06 24,46 2,01 0,0305
76 159 5776 25281 12084 146,93 10,56 145,7 91,84 0,0759
115 173 13225 29929 19895 182,83 297,56 96,55 865,34 0,0568
1027 1869 89907 294377 161808 1869 3280,25 1574,92 2012,92 0,6902

2. Оценка параметров уравнения регрессии.
2.1. Значимость коэффициента корреляции.

По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=10 находим t крит:
t крит = (10;0.05) = 1.812
где m = 1 - количество объясняющих переменных.
Если t набл > t критич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку t набл > t крит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим.
В парной линейной регрессии t 2 r = t 2 b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

2.3. Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:


S 2 y = 157.4922 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).

12.5496 - стандартная ошибка оценки (стандартная ошибка регрессии).
S a - стандартное отклонение случайной величины a.


S b - стандартное отклонение случайной величины b.


2.4. Доверительные интервалы для зависимой переменной.
Экономическое прогнозирование на основе построенной модели предполагает, что сохраняются ранее существовавшие взаимосвязи переменных и на период упреждения.
Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.
Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя.
(a + bx p ± ε)
где

Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X p = 94

(76.98 + 0.92*94 ± 7.8288)
(155.67;171.33)
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.
1) t-статистика. Критерий Стьюдента.
Проверим гипотезу H 0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H 1 не равно) на уровне значимости α=0.05.
t крит = (10;0.05) = 1.812


Поскольку 3.2906 > 1.812, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).


Поскольку 3.1793 > 1.812, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Доверительный интервал для коэффициентов уравнения регрессии.
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(b - t крит S b ; b + t крит S b)
(0.9204 - 1.812 0.2797; 0.9204 + 1.812 0.2797)
(0.4136;1.4273)

(a - t lang=SV>a)
(76.9765 - 1.812 24.2116; 76.9765 + 1.812 24.2116)
(33.1051;120.8478)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
2) F-статистики. Критерий Фишера.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H 0: R 2 =0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:


где m=1 для парной регрессии.
3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.
Табличное значение критерия со степенями свободы k1=1 и k2=10, Fkp = 4.96
Поскольку фактическое значение F > Fkp, то коэффициент детерминации статистически значим (Найденная оценка уравнения регрессии статистически надежна).




Top