Как отключить кэширование памяти. Как отключить кэширование файлов в Windows? Видео: как очистить кэш в различных браузерах

2 Множественная линейная регрессия

2.1 Определение параметров уравнения регрессии

На любой экономический показатель чаще всего оказывает влияние не один, а несколько факторов. В этом случае вместо парной регрессии рассматривается множественная регрессия

Задача оценки статистической взаимосвязи переменных и
формулируется аналогично случаю парной регрессии. Уравнение множественной регрессии может быть представлено в виде:

, (2.2)

где
– вектор независимых (объясняющих) переменных; – вектор параметров (подлежащих определению); случайная ошибка (отклонение); – зависимая (объясняемая) переменная.

Рассмотрим самую употребляемую и наиболее простую из моделей множественной регрессии – модель множественной линейной регрессии.

Теоретическое линейное уравнение регрессии имеет вид:

или для индивидуальных наблюдений
:

Здесь
– вектор размерности
неизвестных параметров.
называется -тым теоретическим коэффициентом регрессии (частичным коэффициентом регрессии). Он характеризует чувствительность величины к изменению величины , т.е. отражает влияние на условное математическое ожидание
зависимой переменной объясняющей переменной при условии, что все другие объясняющие переменные модели остаются постоянными. – свободный член, определяющий в случае, когда все объясняющие переменные равны нулю.

После выбора линейной функции в качестве модели зависимости необходимо оценить параметры регрессии. Пусть имеется наблюдений вектора объясняющих переменных и зависимой переменной :

Для того чтобы однозначно можно было решить задачу нахождения параметров
(т.е. найти некоторый наилучший вектор ), должно выполняться неравенство
. Если это неравенство не будет выполняться, то существует бесконечно много различных векторов параметров, при которых линейная формула связи между
и будет абсолютно точно соответствовать имеющимся наблюдениям.

Например, для однозначного определения оценок параметров уравнения регрессии достаточно иметь выборку из трех наблюдений . В этом случае найденные значения параметров
определяют такую плоскость в трехмерном пространстве, которая пройдет именно через три точки. С другой стороны, добавление в выборку к имеющимся трем наблюдениям еще одного приведет к тому, что четвертая точка
практически наверняка будет лежать вне построенной плоскости, что потребует определенной переоценки параметров.

Число
называется числом степеней свободы . Если число степеней свободы невелико, то статистическая надежность оцениваемой формулы невысока. Например, вероятность верного вывода (получения более точных оценок) по трем наблюдениям существенно ниже, чем по тридцати. Считается, что при оценивании множественной линейной регрессии для обеспечения статистической надежности требуется, чтобы число наблюдений по крайней мере в три раза превосходило число оцениваемых параметров.

Самым распространенным методом оценки параметров уравнения множественной регрессии является метод наименьших квадратов (МНК).

Предпосылки МНК :

Как и в случае парной регрессии, истинные значения параметров по выборке получить невозможно. В этом случае вместо теоретического уравнения регрессии оценивается эмпирическое уравнение регрессии:

Здесь
– оценки теоретических значений коэффициентов регрессии (эмпирические коэффициенты регрессии); – оценка отклонения . Для индивидуальных наблюдений имеем:

При выполнении предпосылок МНК относительно ошибок оценки параметров множественной линейной регрессии по МНК являются несмещенными, эффективными и состоятельными.

На основании (2.6): . (2.7)

Тогда по методу наименьших квадратов для нахождения оценок минимизируется следующая функция:

. (2.8)

Необходимым условием минимизации функции является равенство нулю всех ее частных производных по , т.е.:

(2.9)

Приравнивая их к нулю, получаем систему
линейных уравнений с неизвестными. Такая система обычно имеет единственное решение и называется системой нормальных уравнений. Ее решение в явном виде наиболее наглядно представимо в векторно-матричной форме.

2.2 Расчет коэффициентов множественной линейной регрессии

Данные наблюдений и соответствующие коэффициенты в матричной форме выглядят следующим образом:




.

Здесь
-мерный вектор-столбец наблюдений зависимой переменной ; – матрица размерности
, в которой -тая строка
представляет наблюдение вектора значений независимых переменных ; единица соответствует переменной при свободном члене ; – вектор-столбец размерности параметров уравнения регрессии; – вектор-столбец размерности отклонений выборочных (реальных) значений зависимой переменной от значений , получаемых по уравнению регрессии

Функция
в матричной форме представима как произведение вектор-строки
на вектор-столбец . Вектор-столбец может быть в свою очередь представлен в следующем виде:

. (2.11)

Здесь
– векторы и матрицы, транспонированные к
соответственно. При выводе формулы использовались следующие известные соотношения линейной алгебры:

Необходимым условием экстремума функции является равенство нулю ее частных производных
по всем параметрам
. Вектор-столбец частных производных в матричном виде выглядит следующим образом:

. (2.12)

Рассмотрим более подробно нахождение . Очевидно, что

от не зависит, следовательно,
.

Обозначим вектор-столбец
размерности через . Тогда
, где – соответствующий элемент вектора . Поэтому
.

Обозначим матрицу
размерности через . Тогда



.

Следовательно, частная производная
.

В результате имеем
.

Следовательно, формула (2.12) справедлива. Приравняв к нулю, получаем:

(2.13)

(2.14)

Здесь
– матрица, обратная к .

Полученные общие соотношения справедливы для уравнений регрессии с произвольным количеством
объясняющих переменных. Проанализируем полученные результаты для случаев:


,
,
, .

Из (2.11) следует: , т.е.

.

Из (2.14) следует

(2.15)


(2.16)

Решение данной системы имеет вид:

(2.17)

2.3 Анализ качества эмпирического уравнения множественной линейной регрессии

Построение эмпирического уравнения регрессии является начальным этапом эконометрического анализа. Первое же построенное по выборке уравнение регрессии очень редко является удовлетворительным по тем или иным характеристикам. Поэтому следующей важнейшей оценкой является проверка качества уравнения регрессии. В эконометрике принята устоявшаяся схема такой проверки, которая проводится по следующим направлениям:

    проверка статистической значимости коэффициентов уравнения регрессии;

    проверка общего качества уравнения регрессии;

    проверка свойств данных, выполнимость которых предполагалась при оценивании уравнения (проверка выполнимости предпосылок МНК).

Прежде чем проводить анализ качества уравнения регрессии, необходимо определить дисперсии и стандартные ошибки коэффициентов, а также интервальные оценки коэффициентов.

Выборочные дисперсии эмпирических коэффициентов регрессии можно определить следующим образом:

. (2.18)

Здесь – -тый диагональный элемент матрицы
.

При этом:

, (2.19)

где – количество объясняющих переменных модели. Иногда в формуле (2.19) знаменатель представляют в виде
, подразумевая под число параметров модели (подлежащих определению коэффициентов регрессии).

В частности, для уравнения
с двумя объясняющими переменными используются следующие формулы:

,

,

,
,
. (2.20)

Здесь – выборочный коэффициент корреляции между объясняющими переменными и
; – стандартная ошибка коэффициента регрессии; – стандартная ошибка регрессии (несмещенная оценка).

По аналогии с парной регрессией после определения точечных оценок коэффициентов (
) теоретического уравнения регрессии могут быть рассчитаны интервальные оценки указанных коэффициентов. Доверительный интервал, накрывающий с надежностью
неизвестное значение параметра , определяется как

(2.21)

Проверка статистической значимости коэффициентов уравнения регрессии.

Как и в случае парной регрессии, статистическая значимость коэффициентов множественной линейной регрессии с объясняющими переменными проверяется на основе -статистики:

, (2.22)

имеющей в данном случае распределение Стьюдента с числом степеней свободы . При требуемом уровне значимости наблюдаемое значение -статистики сравнивается с критической точной
распределения Стьюдента.

В случае, если
, то статистическая значимость соответствующего коэффициента регрессии подтверждается. Это означает, что фактор линейно связан с зависимой переменной . Если же установлен факт незначимости коэффициента , то рекомендуется исключить из уравнения переменную . Это не приведет к существенной потере качества модели, но сделает ее более конкретной.

При оценке значимости коэффициентов линейной регрессии на начальном этапе также можно использовать «грубое» правило, рассмотренное в главе 1.3, позволяющее не прибегать к таблицам.

Проверка общего качества уравнения регрессии

Для этой цели, как и в случае парной регрессии, используется коэффициент детерминации
:

(2.23)

Справедливо соотношение
. Чем ближе этот коэффициент к единице, тем больше уравнение регрессии объясняет поведение .

Для множественной регрессии коэффициент детерминации является неубывающей функцией числа объясняющих переменных. Добавление новой объясняющей переменной никогда не уменьшает значение , так как каждая последующая переменная может лишь дополнить, но никак не сократить информацию, объясняющую поведение зависимой переменной. может принимать отрицательные значения., то критерия мультиколлинеарности может быть принято... пределах. 5. Проверка гипотез относительно коэффициентов уравнения регрессии (проверка значимости параметров множественного уравнения регрессии ). 1) t-статистика...

  • Аннотация дисциплины (12)

    Автореферат диссертации

    Информационная сеть Интернет. Раздел 14 . Корпоративные информационные сети. Раздел... множественной регрессии . Парная линейная регрессия . Множественная линейная регрессия . Проверка качества уравнения регрессии . Нелинейные модели регрессии и линеаризация...

  • Федеральное государственное бюджетное образовательное (44)

    Задача

    О значимости выборочного коэффициента корреляции. Проверка качества уравнения регрессии . Классическая регрессионная модель. Предпосылки... Статические оценки параметров распределения 3 6 14 ,15 4 3 3 ИЗ–6 14 Проверка статистических гипотез 3 6 16 2 1 ...

  • 1. Основные определения и формулы

    Множественная регрессия - регрессия между переменными и т.е. модель вида:

    где - зависимая переменная (результативный признак);

    - независимые объясняющие переменные;

    Возмущение или стохастическая переменная, включающая влияние неучтенных в модели факторов;

    Число параметров при переменных

    Основная цель множественной регрессии - построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.

    Уравнение множественной линейной регрессии в случае независимых переменных имеет вид а в случае двух независимых переменных - (двухфакторное уравнение).

    Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов . Строится система нормальных уравнений:

    Решение этой системы позволяет получить оценки параметров регрессии с помощью метода определителей

    где - определитель системы;

    - частные определители, которые получаются путем замены соответствующего столбца матрицы определителя системы данными правой части системы.

    Для двухфакторного уравнения коэффициенты множественной линейной регрессии можно вычислить по формулам:

    Частные уравнения регрессии характеризуют изолированное влияние фактора на результат, ибо другие факторы закреплены на неизменном уровне. Эффекты влияния других факторов присоединены в них к свободному члену уравнения множественной регрессии. Это позволяет на основе частных уравнений регрессии определять частные коэффициенты эластичности :

    Средние коэффициентами эластичности показывают на сколько процентов в среднем изменится результат при изменении соответствующего фактора на 1%:

    Их можно сравнивать друг с другом и соответственно ранжировать факторы по силе их воздействия на результат.

    Тесноту совместного влияния факторов на результат оценивает коэффиц и ент (индекс) множественной корреляции :

    Величина индекса множественной корреляции лежит в пределах от 0 до 1 и должна быть больше или равна максимальному парному индексу корреляции:

    Чем ближе значение индекса множественной корреляции к 1, тем теснее связь результативного признака со всем набором исследуемых факторов.

    Сравнивая индексы множественной и парной корреляции, можно сделать вывод о целесообразности (величина индекса множественной корреляции существенно отличается от индекса парной корреляции) включения в уравнение регрессии того или иного фактора.

    При линейной зависимости совокупный коэффициент множественной ко р реляции определяется через матрицу парных коэффициентов корреляции:

    где - определитель матрицы парных коэффициентов корреляции;

    - определитель матрицы межфакторной корреляции.

    Частны е коэффициент ы корреляции характеризуют тесноту линейной зависимости между результатом и соответствующим фактором при устранении влияния других факторов. Если вычисляется, например, (частный коэффициент корреляции между и при фиксированном влиянии ), это означает, что определяется количественная мера линейной зависимости между и которая будет иметь место, если устранить влияние на эти признаки фактора

    Частные коэффициенты корреляции, измеряющие влияние на фактора при неизменном уровне других факторов, можно определить как:

    или по рекуррентной формуле:

    Для двухфакторного уравнения:

    или

    Частные коэффициенты корреляции изменяются в пределах от -1 до +1.

    Сравнение значений парного и частного коэффициентов корреляции показывает направление воздействия фиксируемого фактора. Если частный коэффициент корреляции получится меньше, чем соответствующий парныйкоэффициент значит взаимосвязь признаков и в некоторой степени обусловлена воздействием на них фиксируемой переменной И наоборот, большее значение частного коэффициента по сравнению с парным свидетельствует о том, что фиксируемая переменная ослабляет своим воздействием связь и

    Порядок частного коэффициента корреляции определяется количеством факторов, влияние которых исключается. Например, - коэффициент частной корреляции первого порядка.

    Зная частные коэффициенты корреляции (последовательно первого, второго и более высокого порядка), можно определить совокупный коэффициент мн о жественной корреляции :

    Качество построенной модели в целом оценивает коэффициент (индекс) множественной детерминации , который рассчитывается как квадрат индекса множественной корреляции: Индекс множественной детерминации фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии факторов. Влияние других, не учтенных в модели факторов, оценивается как

    Если число параметров при близко к объему наблюдений, то коэффициент множественной корреляции приблизится к единице даже при слабой связи факторов с результатом. Для того чтобы не допустить возможногопреувеличения тесноты связи, используется скорректированный индекс множественной корреляции , который содержит поправку на число степеней свободы:

    Чем больше величина тем сильнее различия и

    Значимость частных коэффициентов корреляции проверяется аналогично случаю парных коэффициентов корреляции. Единственным отличием является число степеней свободы, которое следует брать равным =--2.

    Значимость уравнения множественной регрессии в целом , так же как и в парной регрессии, оценивается с помощью - критерия Фишера :

    Мерой для оценки включения фактора в модель служит частный -критерий . В общем виде для фактора частный -критерий определяется как

    Для двухфакторного уравнения частные -критерии имеют вид:

    Если фактическое значение превышает табличное, то дополнительное включение фактора в модель статистически оправданно и коэффициент чистой регрессии при факторе статистически значим. Если же фактическое значение меньше табличного, то фактор нецелесообразно включать в модель, а коэффициент регрессии при данном факторе в этом случае статистически незначим.

    Для оценки значимости коэффициентов чистой регрессии по -критерию Стьюдента используется формула:

    где - коэффициент чистой регрессии при факторе

    - средняя квадратическая (стандартная) ошибка коэффициента регрессии которая может быть определена по формуле:

    При дополнительном включении в регрессию нового фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если это не так, то включаемый в анализ новый фактор не улучшает модель и практически является лишним фактором. Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по -критерию Стьюдента.

    При построении уравнения множественной регрессии может возникнуть проблема мультиколлинеарности факторов. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.

    Для оценки мультиколлинеарности факторов может использоваться опред е литель матрицы между факторами . Чем ближе к 0 определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И наоборот, чем ближе к 1 определитель, тем меньше мультиколлинеарность факторов.

    Для применения МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это означает, что для каждого значения фактора остатки имеют одинаковую дисперсию. Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность . При нарушении гомоскедастичности выполняются неравенства

    Наличие гетероскедастичности можно наглядно видеть из поля корреляции (рис. 9.22).

    Рис. 9.22 . Примеры гетероскедастичности:

    а) дисперсия остатков растет по мере увеличения

    б) дисперсия остатков достигает максимальной величины при средних значениях переменной и уменьшается при минимальных и максимальных значениях

    в) максимальная дисперсия остатков при малых значениях и дисперсия остатков однородна по мере увеличения значений

    Для проверки выборки на гетероскедастичность можно использовать метод Гольдфельда-Квандта (при малом объеме выборки) или критерий Бартлетта (при большом объеме выборки).

    Последовательность применения теста Гольдфельда-Квандта :

    1) Упорядочить данные по убыванию той независимой переменной, относительно которой есть подозрение на гетероскедастичность.

    2) Исключить из рассмотрения центральных наблюдений. При этом где - число оцениваемых параметров. Из экспериментальных расчетов для случая однофакторного уравнения регрессии рекомендовано при =30 принимать =8, а при =60 соответственно =16.

    3) Разделить совокупность из наблюдений на две группы (соответственно с малыми и большими значениями фактора ) и определить по каждой из групп уравнение регрессии.

    4) Вычислить остаточную сумму квадратов для первой и второй групп и найти их отношение где При выполнении нулевой гипотезы о гомоскедастичности отношение будет удовлетворять -критерию Фишера со степенями свободы для каждой остаточной суммы квадратов. Чем больше величина превышает тем более нарушена предпосылка о равенстве дисперсий остаточных величин.

    Если необходимо включить в модель факторы, имеющие два или более качественных уровней (пол, профессия, образование, климатические условия, принадлежность к определенному региону и т.д.), то им должны быть присвоены цифровые метки, т.е. качественные переменные преобразованы в количественные. Такого вида сконструированные переменные называют фиктивными (и с кусственными) переменными .

    К оэффициент регрессии при фиктивной переменной интерпретируется как среднее изменение зависимой переменной при переходе от одной категории к другой при неизменных значениях остальных параметров. Значимость влияния фиктивной переменной проверяется с помощью -критерия Стьюдента.

    2. Решение типовых задач

    Пример 9. 2. По 15 предприятиям отрасли (табл. 9.4) изучается зависимость затрат на выпуск продукции (тыс. ден. ед.) от объема произведенной продукции (тыс. ед.) и расходов на сырье (тыс. ден. ед). Необходимо:

    1) Построить уравнение множественной линейной регрессии.

    2) Вычислить и интерпретировать:

    Средние коэффициенты эластичности;

    Парные коэффициенты корреляции, оценить их значимость на уровне 0,05;

    Частные коэффициенты корреляции;

    Коэффициент множественной корреляции, множественный коэффициент детерминации, скорректированный коэффициент детерминации.

    3) Оценить надежность построенного уравнения регрессии и целесообразность включения фактора после фактора и после

    Таблица 9.4

    x 1

    x 2

    Решение:

    1) В Excel составим вспомогательную таблицу рис. 9.23.

    Рис. 9.23 . Расчетная таблица многофакторной регрессии.

    С помощью встроенных функций вычислим: =345,5; =13838,89; =8515,78; =219,315; =9,37; =6558,08.

    Затем найдем коэффициенты множественной линейной регрессии и оформим вывод результатов как на рис. 9.24.

    Рис. 9.24 . Решение задачи в MS Excel

    Для вычисления значения коэффициента используем формулы

    Формулы для вычисления параметров заносим в ячейки Е 20 , Е 2 1, Е 2 2. Так длявычисления параметра b 1 в Е 20 поместим формулу =(B20*B24-B21*B22)/(B23*B24-B22^2) и получим 29,83. Аналогично получаем значения =0,301 и Коэффициент =-31,25 (рис. 9.25.).

    Рис. 9.25 . Вычисление параметров уравнения множественной регрессии (в с т роке формул формула для расчета b 2) .

    Уравнение множественной линейной регрессии примет вид:

    31,25+29,83+0,301

    Таким образом, при увеличении объема произведенной продукции на 1 тыс. ед. затраты на выпуск этой продукции в среднем увеличатся на 29,83 тыс. ден. ед., а при увеличении расходов на сырье на 1 тыс. ден. ед. затраты увеличатся в среднем на 0,301 тыс. ден. ед.

    2) Для вычисления средних коэффициентов эластичности воспользуемся формулой: Вычисляем: =0,884 и =0,184. Т.е. увеличение только объема произведенной продукции (от своего среднего значения) или только расходов на сырье на 1% увеличивает в среднем затраты на выпуск продукции на 0,884% или 0,184% соответственно. Таким образом, фактор оказывает большее влияние на результат, чем фактор

    Для вычисления парных коэффициентов корреляции воспользуемся функцией «КОРРЕЛ» рис. 9.26.

    Рис. 9.26 . Вычисление парных коэффициентов корреляции

    Значения парных коэффициентов корреляции указывают на весьма тесную связь с и на тесную связь с В то же время межфакторная связь очень сильная (=0,88>0,7), что говорит о том, что один из факторов является неинформативным, т.е. в модель необходимо включать или или

    З начимост ь парных коэффициентов корреляции оценим с помощью -критерия Стьюдента. =2,1604 определяем с помощью встроенной статистической функции СТЬЮДРАСПОБР взяв =0,05 и =-2=13.

    Фактическое значение -критерия Стьюдента для каждого парного коэффициента определим по формулам: . Результат расчета представлен на рис. 9.27.

    Рис. 9.27 . Результат расчета фактических значений -критерия Стьюдента

    Получим =12,278; =7,1896; =6,845.

    Так как фактические значения -статистики превосходят табличные, то парные коэффициенты корреляции не случайно отличаются от нуля, а статистически значимы.

    Получим =0,81; =0,34; =0,21. Таким образом, фактор оказывает более сильное влияние на результат, чем

    При сравнении значений коэффициентов парной и частной корреляции приходим к выводу, что из-за сильной межфакторной связи коэффициенты парной и частной корреляции отличаются довольно значительно.

    Коэффициент множественной корреляции

    Следовательно, зависимость от и характеризуется как очень тесная, в которой =93% вариации затрат на выпуск продукции определяются вариацией учтенных в модели факторов: объема произведенной продукции и расходов на сырье. Прочие факторы, не включенные в модель, составляют соответственно 7% от общей вариации

    Скорректированный коэффициент множественной детерминации =0,9182 указывает на тесную связь между результатом и признаками.

    Рис. 9.28 . Результаты расчета частных коэффициентов корреляции и коэфф и циента множественной корреляции

    3) Оценим надежность уравнения регрессии в целом с помощью -критерия Фишера. Вычислим . =3,8853 определяем взяв =0,05, =2, =15-2-1=12 помощью встроенной статистической функции FРАСПОБР с такими же параметрами.

    Так как фактическое значение больше табличного, то с вероятностью 95% делаем заключение о статистической значимости уравнения множественной линейной регрессии в целом.

    Оценим целесообразность включения фактора после фактора и после с помощью частного -критерия Фишера по формулам

    ; .

    Для этого в ячейку B32 заносим формулу для расчета F x 1 «=(B28- H24^2)*(15-3)/(1-B28) », а в ячейку B 33 формулу для расчета F x 2 «=(B28-H23^2)*(15-3)/(1-B28) », результат вычисления F x 1 = 22,4127, F x 2 = 1,5958. Табличное значение критерия Фишера определим с помощью встроенной функции FРАСПОБР с параметрами =0,05, =1, =12 «=FРАСПОБР(0,05; 1 ;12) », результат - =4,747. Так как =22,4127>=4,747, а =1,5958<=4,747, то включение фактора в модель статистически оправдано и коэффициент чистой регрессии статистически значим, а дополнительное включение фактора после того, как уже введен фактор нецелесообразно (рис. 9.29).

    Рис. 9.29 . Результаты расчета критерия Фишера

    Низкое значение (немногим больше 1) свидетельствует о статистической незначимости прироста за счет включения в модель фактора после фактора Это означает, что парная регрессионная модель зависимости затрат на выпуск продукции от объема произведенной продукции является достаточно статистически значимой, надежной и что нет необходимости улучшать ее, включая дополнительный фактор (расходы на сырье).

    3. Дополнительные сведения для решения задач с помощью MS Excel

    Сводные данные основных характеристик для одного или нескольких массивов данных можно получить с помощью инструмента анализа данных Опис а тельная статистика . Порядок действий следующий:

    1. Необходимо проверить доступ к Пакету анализа . Для этого в ленте выбираем вкладку «Данные», в ней раздел «Анализ» (рис. 9.30.).

    Рис. 9.30 . Вкладка данные диалоговое окно «Анализ данных»

    2. В диалоговом окне «Анализ данных» выбрать Описательная стат и стика и нажать кнопку «ОК», в появившемся диалоговом окне заполните необходимые поля (рис. 9.31):

    Рис. 9.31 . Диалоговое окно ввода параметров инструмента
    « Описательная статистика »

    Входной интервал - диапазон, содержащий данные результативного и объясняющих признаков;

    Группирование - указать, как расположены данные (в столбцах или строках);

    Метки - флажок, который указывает, содержит ли первая строка названия столбцов или нет;

    Выходной интервал - достаточно указать левую верхнюю ячейку будущего диапазона;

    Новый рабочий лист - можно задать произвольное имя нового листа, на который будут выведены результаты.

    Для получения информации Итоговой статистики, Уровня наде ж ности, -го наибольшего и наименьшего значений нужно установить соответствующие флажки в диалоговом окне.

    Получаем следующую статистику (рис. 2.10).

    Экономические явления, как правило, определяются большим числом одновременно и совокупно действующих факторов. В связи с этим часто возникает задача исследования зависимости переменной у от нескольких объясняющих переменных (х 1, х 2 ,…, х k) которая может быть решена с помощью множественного корреляционно-регрессионного анализа.

    При исследовании зависимости методами множественной регрессии задача формируется так же, как и при использовании парной регрессии, т.е. требуется определить аналитическое выражение формы связи между результативным признаком у и факторными признаками х, х 2 , ..., х k , найти функцию , где k – число факторных признаков

    Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах и целом ряде других вопросов эконометрики. В настоящее время множественная регрессия – один из наиболее распространенных методов в эконометрике. Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.

    Из-за особенностей метода наименьших квадратов во множественной регрессии, как и в парной, применяются только линейные уравнения и уравнения, приводимые к линейному виду путем преобразования переменных. Чаще всего используется линейное уравнение, которое можно записать следующим образом:

    a 0 , a 1, …, a k – параметры модели (коэффициенты регрессии);

    ε j – случайная величина (величина остатка).

    Коэффициент регрессии а j показывает, на какую величину в среднем изменится результативный признак у, если переменную х j увеличить на единицу измерения при фиксированном (постоянном) значении других факторов, входящих в уравнение регрессии. Параметры при x называются коэффициентами «чистой» регрессии .

    Пример.

    Предположим, что зависимость расходов на продукты питания по совокупности семей характеризуется следующим уравнением:

    y – расходы семьи за месяц на продукты питания, тыс. руб.;

    x 1 – месячный доход на одного члена семьи, тыс. руб.;

    x 2 – размер семьи, человек.

    Анализ данного уравнения позволяет сделать выводы – с ростом дохода на одного члена семьи на 1 тыс. руб. расходы на питание возрастут в среднем на 350 руб. при том же среднем размере семьи. Иными словами, 35% дополнительных семейных расходов тратится на питание. Увеличение размера семьи при тех же ее доходах предполагает дополнительный рост расходов на питание на 730 руб. Первый параметр не подлежит экономической интерпретации.

    Оценивание достоверности каждого из параметров модели осуществляется при помощи t-критерия Стьюдента. Для любого из параметров модели а j значение t-критерия рассчитывается по формуле , где


    S ε – стандартное (среднее квадратическое) отклонение уравнения регрессии)

    определяется по формуле

    Коэффициент регрессии а j считается достаточно надежным, если расчетное значение t- критерия с (n - k - 1 ) степенями свободы превышает табличное, т.е. t расч > t а jn - k -1 . Если надеж­ность коэффициента регрессии не подтверждается, то следует; вывод о несущественности в модели факторного j признака и необходимости его устранения из модели или замены на другой факторный признак.

    Важную роль при оценке влияния факторов играют коэффициенты регрессионной модели. Однако непосредственно с их помощью нельзя сопоставлять факторные признаки по степени их влияния на зависимую переменную из-за различия единиц измерения и разной степени колеблемости. Для устранения таких различий применяются частные коэффициенты эластичности Э j и бета-коэффициенты β j .

    Формула для расчета коэффициента эластичности

    где

    a j – коэффициент регрессии фактора j ,

    Среднее значение результативного признака

    Среднее значение признака j

    Коэффициент эластичности показывает, на сколько процентов изменяется зависимая переменная у при изменении фактора j на 1 %.

    Формула определения бета - коэффициента.

    , где

    S xj – среднее квадратическое отклонение фактора j ;

    S y - среднее квадратическое отклонение фактора y.

    β - коэффициент показывает, на какую часть величины среднего квадратического отклонения S y из­менится зависимая переменная у с изменением со­ответствующей независимой переменной х j на величину своего среднего квадратического отклонения при фиксированном значении остальных неза­висимых переменных.

    Долю влияния определенного фактора в суммарном влиянии всех факторов можно оценить по величине дельта-коэффициентов Δ j .

    Указанные коэффициенты позволяют проранжировать факторы по степени влияния факторов на зависимую переменную.

    Формула определения дельта - коэффициента.

    r yj – коэффициент парной корреляции между фактором j и зависимой переменной;

    R 2 – множественный коэффициент детерминации.

    Коэффициент множественной детерминации используют для оценки качества множественных регрессионных моделей.

    Формула определения коэффициента множественной детерминации.

    Коэффициент детерминации показывает долю вариации результативного признака, находящегося под воздействием факторных признаков, т.е. опре­деляет, какая доля вариации признака у учтена в модели и обусловлена влиянием на него факторов, включенных в модель. Чем ближе R 2 к единице, тем выше качество модели

    При добавлении независимых переменных значение R 2 уве­личивается, поэтому коэффициент R 2 должен быть скорректи­рован с учетом числа независимых переменных по формуле

    Для проверки значимости модели регрессии используется F-критерий Фишера. Он определяется по формуле

    Если расчетное значение критерия с γ 1 , = k и γ 2 = (n - k- 1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

    В качестве меры точностимодели применяют стандартную ошибку, которая представляет собой отношение суммы квадратов уровней остаточной компоненты к величине (n - k -1):

    Классический подход к оцениванию параметров линейной модели основан на методе наименьших квадратов (МНК) . Система нормальных уравнений имеет вид:

    Решение системы может быть осуществлено по одному из известных способов: Метод Гаусса, метод Крамера и т.д.

    Пример15.

    По четырем предприятиям региона (таблица 41) изучается зависимость выработки продукции на одного работника y (тыс. руб.) от ввода в действие новых основных фондов (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих (%). Требуется написать уравнение множественной регрессии.

    Таблица 41 – Зависимость выработки продукции на одного работника

    В действительности каждое явление определяется действием не одной причины, а нескольких, даже комплексом причин. Их совместное действие может по-разному сказываться на следствии. «Следствие порождается совокупным действием множества причин. Сложное сочетание причин приводит к различным результатам. Действуя на следствие в одном и том же направлении, они усиливают влияние друг друга. Если часть причин имеет обратное направление в отношении объекта действия, то их совместное действие на следствие ослабляется или даже сводится на нет. Может возникнуть даже такая ситуация, когда вполне определенная, реально действующая причина не имеет явного следствия. Это означает, что наряду с этой причиной действует другая, поглощающая действие первой» . Итак, необходимо исследовать воздействие различных причин, т. е. исследовать зависимость одного явления от ряда других явлений, вызывающих первое.

    Совершенно очевидно, что не все причины и факторы, в какой-то степени оказывающие влияние на изучаемое явление, могут быть исследованы. Мы вынуждены ограничиться только существенными причинами.

    Экономическое явление детерминируется множеством одновременно и совокупно действующих причин. Поэтому перед нами стоит задача исследования зависимости одной зависимой переменной от нескольких объясняющих переменных в условиях конкретного места и конкретного времени. Эту задачу можно решить с помощью множественного, или многофакторного, регрессионного анализа. При этом снова ограничимся рассмотрением линейного соотношения между зависимой переменной у и объясняющими переменными хт. Мы обсудим также применение регрессионного анализа при нелинейном соотношении между переменными, но только для случая, когда возможна линейная аппроксимация.

    Итак, при существовании линейного соотношения между переменными общее выражение уравнения множественной регрессии (2.1) записывается в виде

    Объясняющие переменные оказывают совместное одновременное влияние на зависимую переменную у.

    Как было сказано, мы не можем охватить весь комплекс причин и учесть случайность, присущую в той или иной степени причинному действию и определяемому им следствию. Поэтому, ограничиваясь наиболее важными объясняющими переменными, в выражение функции регрессии вводим аддитивную составляющую возмущающую переменную и, дающую суммарный эффект от воздействия всех неучтенных факторов и случайностей. Эмпирические значения у можно вследствие этого представить таким образом:

    Итак, возмущающая переменная и интерпретируется так же, как и при простой линейной регрессии.

    В выражении функции - расчетные значения регрессии. Они указывают средние значения переменной у в точке при фиксированных значениях объясняющих переменных в предположении, что только эти переменных являются причиной изменения переменной у. Значения у представляют собой оценки средних значений у для фиксированных значений переменных в точке

    Коэффициенты - параметры регрессии (2.42). Постоянная регрессия снова выполняет в уравнении регрессии функцию выравнивания. Она определяет точку пересечения гиперповерхности регрессии с осью ординат.

    Значения представляют собой оценки коэффициентов регрессии. Индекс при коэффициенте соответствует индексу объясняющей переменной. Так, указывает среднюю величину изменения у при изменении на одну единицу при условии, что другие переменные остаются без изменения; показывает, на сколько единиц в среднем изменится у, если бы переменная изменилась на единицу при условии, что переменные остались бы без изменения, и т. д. В то время как регрессия (2.42) охватывает совокупное одновременное влияние объясняющих переменных, коэффициенты регрессии указывают соответствующие усредненные частные влияния переменных в предположении, что остальные объясняющие переменные сохраняются на постоянном уровне. С точки зрения статистической методологии, таким образом, нет различия между множественной и частной регрессией. (На этом мы еще остановимся подробнее в следующем разделе.) По этой причине в литературе параметры называются как коэффициентами множественной, так и частной регрессии.

    Такая содержательная интерпретация коэффициентов регрессии могла бы привести к ошибочному заключению, что достаточно определить несколько простых линейных регрессий переменной у по отдельным переменным Но, как мы уже упоминали ранее и в чем мы еще убедимся на примере, множественная регрессия хотя и охватывает одновременное действие объясняющих переменных, коэффициент регрессии исключает влияние остальных объясняющих переменных,

    В случае простой линейной регрессии дело обстоит иначе. При простой линейной регрессии влияние прочих объясняющих переменных частично отражается в коэффициенте регрессии, что можно объяснить часто существующей двусторонней зависимостью объясняющих переменных. Итак, если располагают достаточной информацией и эмпирическим числовым материалом по нескольким причинам-факторам для переменной у, то целесообразнее и теоретически обоснованнее строить множественную регрессию. В разделе 2.5 мы уже указывали, что из-за рассеяния значений отдельных переменных функция регрессии необратима даже тогда, когда это оправдано логически и обосновано профессиональными соображениями. Необратимость характерна также для множественной регрессии. Если интересуются не только зависимостью переменной у от но также зависимостью переменной от у и то следует определить другую функцию (регрессию х на у и Теоретически существует сопряженных, или альтернативных, регрессий. Уже здесь мы обращаем внимание на то, что многосторонняя зависимость между переменными у и нарушает существенные предпосылки применения метода наименьших квадратов. Подробно речь об этом пойдем в главе 12.

    Процедуру построения множественной регрессии рассмотрим на примере регрессии с двумя объясняющими переменными. Функция линейной множественной регрессии в этом случае записывается в виде

    Задача состоит в оценке параметров регрессии по результатам выборочных наблюдений над переменными, включенными в анализ. Для этой цели снова применяем метод наименьших квадратов. Поставим условие, согласно которому регрессия должна по возможности хорошо согласовываться с Эмпирическими данными. Поэтому по тем же соображениям, что и в разделе 2.4, выдвинем требование, по которому сумма квадратов отклонений всех наблюдаемых значений зависимой переменной от значений, вычисленных по уравнению регрессии (т. е. сумма квадратов остатков), должна быть минимальна. Итак, должно выполняться требование

    Подставляя вместо выражение (2.43), получим

    Так же, как в разделе 2.4, 5 является функцией от неизвестных параметров регрессии. Необходимым условием выполнения (2.45) служит обращение в нульгчастных производных функции по каждому из параметров После соответствующих алгебраических

    выкладок получаем следующую систему нормальных уравнений:

    Если мы сравним эти уравнения с нормальными уравнениями простой линейной регрессии, то увидим большое сходство. Они отличаются лишь слагаемым, учитывающим новую переменную Следовательно, включение в анализ новых переменных не представляет больших трудностей.

    Разделив обе части уравнения (2.46) на получим следующее выражение для постоянной регрессии

    Подставляя (2.49) в (2.43), после некоторых простых преобразований получим выражение, аналогичное (2.25):

    Решая систему нормальных уравнений относительно неизвестных параметров, получим

    По аналогии с формулой (2.27) для простой регрессии можно коэффициенты множественной или частной регрессии представить через дисперсии и ковариации.

    Разделив вначале обе части нормального уравнения (2.46) на и умножив их на вычтем их соответственно из левой и правой частей уравнения (2.47). В результате получим

    Затем умножим обе части нормального уравнения (2.46) на предварительно поделенные на и вычтем их соответственно из левой и правой частей уравнения (2.48). В результате получим

    Оба равенства мы можем представить следующим образом:

    Разделив обе части равенств (2.53) и (2.54) на найдем, с учетом определений дисперсии и ковариации, выражения коэффициентов регрессии:

    Используя данные примера из раздела 2.4, дополним их результатами наблюдений над второй объясняющей переменной - средним возрастом работников. Переменную х, использованную в примере раздела 2.4, обозначим теперь . В табл. 7 приведены значения, которые принимает переменная а также промежуточные результаты вычислений, необходимые для нахождения оценок коэффициентов регрессии.

    Таблица 7. Средний возраст работников, средний процент выполнения нормы на 14 предприятиях и промежуточные результаты, необходимые для нахождения оценок параметров регрессии (см. скан)

    Среднее значение переменной

    Используя промежуточные результаты из табл. 3 и 7, по формулам (2.51) и (2.52) вычисляем коэффициенты регрессии:

    Постоянную регрессии получаем по формуле (2.49):

    Итак, в соответствии с формулой функции регрессии (2.43) уравнение регрессии можно записать в виде

    Если рассматривать зависимость производительности одновременно от уровня механизации работ и от среднего возраста работников, то производительность труда в среднем изменится на при условии, что уровень механизации работ изменится на один процент при исключении влияния среднего возраста работников. Если исключить влияние уровня механизации работ, то производительность труда в среднем изменится на при изменении среднего возраста работников на один год.

    По сравнению с коэффициентом регрессии в уравнении с одной объясняющей переменной частный коэффициент регрессии несколько уменьшился. Это объясняется тем, что переменная коррелирует с в чем мы еще убедимся с помощью количественного показателя. По этой причине переменная влияет на переменную у через вследствие чего ослабевает сила зависимости у от Наличие зависимости среди объясняющих переменных нарушает одно из основных предположений линейной модели регрессионного анализа, что влечет за собой особые проблемы. Более подробно эти проблемы мы обсудим в главе 9.

    Подставляя последовательно значения переменных в полученное уравнение, найдем расчетные значения регрессии. Вычитая их из наблюдаемых значений переменной у, получим остатки:

    По величине этих остатков можно сделать вывод, аналогичный выводу, сделанному в разделе 2.4 для простой линейной регрессии.

    Сравнивая формулы (2.51) и (2.52) с (2.22) и (2.23), а также процедуры расчета, убеждаемся, что включение в регрессию новых объясняющих переменных усложняет аналитические выражения формул, а вместе с этим и вычисления. Обобщение модели множественной регрессии на объясняющих переменных требует использования матричных обозначений и владения техникой матричной алгебры. Кроме того, это необходимо для компактности изложения и применения некоторых стандартных вычислительных процедур, значительно облегчающих и ускоряющих проведение анализа }

    
    Top