Ekonometrický model lineární regrese s chybou. Prognózování pomocí vícenásobného regresního modelu

Prognóza pomocí vícenásobného modelu lineární regrese zahrnuje odhad očekávaných hodnot závislé proměnné, kdy nastavené hodnoty x nezávislých proměnných zahrnutých do regresní rovnice. Existují bodové a intervalová předpověď s.

Bodová předpověď - Tento vypočítaná hodnota závislá proměnná, získaná dosazením predikovaných (zadaných výzkumníkem) hodnot nezávislých proměnných do vícenásobné lineární regresní rovnice. Pokud jsou uvedeny hodnoty, pak se bude předpovídaná hodnota závislé proměnné (bodová předpověď) rovnat

Intervalová předpověď - to je minimum a maximální hodnota závisle proměnná, v intervalu mezi

který padá s daným stupněm pravděpodobnosti a pro dané hodnoty nezávislých proměnných.

Intervalová předpověď pro lineární funkce vypočítané podle vzorce

Kde t T – teoretická hodnota Studentova testu při df=n- – t– 1 stupeň volnosti; s y – standardní chyba předpověď, vypočítaná podle vzorce

(2.57)

Kde X– matice počátečních hodnot nezávislých proměnných; X pr – maticový sloupec predikovaných hodnot nezávislých proměnných formuláře

Najděte predikované hodnoty daňových příjmů (příklad 2.1), za předpokladu, že vztah mezi ukazateli je popsán rovnicí

Nastavíme predikované hodnoty nezávislých proměnných:

  • – počet zaměstnaných Xj: 500 tisíc osob;
  • – objem přeprav ve zpracovatelském průmyslu X 2: 65 000 milionů RUB;
  • – výroba energie x3: 15 000 milionů rublů.

Najdeme bodovou a intervalovou předpověď daňových příjmů.

Pro dané hodnoty nezávislých proměnných budou daňové příjmy v průměru

Vektor predikovaných hodnot nezávislých proměnných bude mít tvar

Chyba prognózy vypočtená pomocí vzorce (2.57) byla 5556,7. Tabulková hodnota t-test pro počet stupňů volnosti df = 44 a hladina významnosti a = 0,05 je 2,0154. V důsledku toho budou předpokládané hodnoty daňových příjmů v mezích 0,95:

od 18 013,69 – 2,0154-5556,7 = 6814,1 milionu rublů;

až 18 013,69 + 2 0154-5556,7 = 29 212 milionů rublů.

Prognózování pomocí nelineárních modelů vícenásobná regrese lze také provést pomocí vzorců (2.55)–(2.57), po předchozí linearizaci uvedených modelů.

Multikolinearita dat

Při konstrukci ekonometrického modelu se předpokládá, že nezávislé proměnné ovlivňují závislou proměnnou izolovaně, to znamená, že vliv jednotlivé proměnné na výsledný atribut nesouvisí s vlivem jiných proměnných. V reálné ekonomické realitě jsou všechny jevy do té či oné míry spojeny, takže dosáhnout tohoto předpokladu je téměř nemožné. Přítomnost souvislosti mezi nezávislými proměnnými vede k potřebě posoudit její vliv na výsledky korelační a regresní analýzy.

Mezi vysvětlujícími proměnnými existují funkční a stochastické vztahy. V prvním případě hovoří o chybách specifikace modelu, které je nutné opravit.

Funkční souvislost vzniká, jsou-li v regresní rovnici jako vysvětlující proměnné zahrnuty zejména všechny proměnné zahrnuté v identitě. Můžeme například říci, že důchod Y se skládá ze spotřeby C a investic já, tj. platí identita. Předpokládáme, že úroveň úrokové sazby g závisí na příjmu, tzn. modelovat v obecný pohled mohou být zastoupeny ve formě

Nezkušený výzkumník, který chce model vylepšit, může do rovnice zahrnout také proměnné „spotřeba“ a „investice“, což povede k funkční spojení mezi vysvětlujícími proměnnými:

Funkční vztah sloupců matice X povede k nemožnosti nalézt jedinečné řešení rovnice

regrese, protože a najít opak

matice zahrnují dělení algebraické sčítání matice do jejího determinantu, který je dán

V tomto případě se bude rovnat nule.

Častěji se mezi vysvětlujícími proměnnými vyskytuje stochastický vztah, který vede k poklesu

hodnoty determinantu matice: čím silnější je spojení,

tím menší bude determinant. To vede ke zvýšení nejen odhadů parametrů získaných pomocí nejmenších čtverců, ale také jejich standardních chyb, které se počítají pomocí vzorce (2.24):

ve kterém, jak vidíme, se také používá matice Korelační vztah může existovat jak mezi dvěma vysvětlujícími proměnnými (. vzájemná korelace) a mezi několika (multikolinearita).

Existuje několik znaků, které naznačují přítomnost multikolinearity. Jedná se zejména o tyto znaky:

  • – znaky regresních koeficientů, které neodpovídají ekonomické teorii. Například víme, že vysvětlující proměnná X má přímý dopad na vysvětlovanou proměnnou y, přičemž zároveň je regresní koeficient pro tuto proměnnou menší než nula;
  • – významné změny parametrů modelu s mírným snížením (zvýšením) objemu studované populace;
  • – nevýznamnost regresních parametrů v důsledku vysoké hodnoty standardní chyby parametrů.

Existenci korelace mezi nezávislými proměnnými lze identifikovat pomocí korelačních indikátorů mezi nimi, zejména pomocí párových korelačních koeficientů r XiX, který lze zapsat jako matici

(2.58)

Korelační koeficient proměnné se sebou samým rovný jedné (G xx = 1), a korelační koeficient proměnné*, s proměnnou *,■ se rovná korelačnímu koeficientu proměnné XjC proměnná X, (G x x =r x x ). Proto, daná matrice je symetrický, proto pouze naznačuje hlavní úhlopříčka a prvky pod ním:

Vysoké hodnoty párů lineární koeficienty korelace ukazují na přítomnost interkorelace, tzn. lineární vztah mezi dvěma vysvětlujícími proměnnými. Čím vyšší hodnota, tím vyšší vzájemná korelace. Protože při sestavování modelů je téměř nemožné vyhnout se nedostatku vztahů mezi vysvětlujícími proměnnými, existuje další doporučení ohledně zahrnutí dvou proměnných do modelu jako vysvětlujících. Obě proměnné lze zahrnout do modelu, pokud jsou vztahy splněny

těch. těsnost souvislosti mezi výslednými a vysvětlujícími proměnnými je větší než těsnost souvislosti mezi vysvětlujícími proměnnými.

Přítomnost multikolinearity lze potvrdit nalezením determinantu matice (2.58). Pokud souvislost mezi nezávislými proměnnými zcela chybí, pak se nediagonální prvky budou rovnat nule a determinant matice bude roven jedné. Pokud je vztah mezi nezávislými proměnnými blízký funkcionálnímu (tj. velmi blízko), pak bude determinant matice rxg blízký nule.

Další metoda pro měření multikolinearity je důsledkem analýzy vzorce pro směrodatnou chybu regresního koeficientu (2.28):

Jak vyplývá z tohoto vzorce, směrodatná chyba bude tím větší, čím menší bude volaná hodnota rozptylový inflační faktor (neborozptylový inflační faktor ) VIF:

kde je zjištěný koeficient determinace pro rovnici závislosti proměnné Xj z jiných proměnných zahrnutých v uvažovaném modelu vícenásobné regrese.

Protože hodnota odráží blízkost vztahu mezi proměnnou Xj a dalších vysvětlujících proměnných, pak v podstatě charakterizuje multikolinearitu ve vztahu k této proměnné Xj. Pokud není připojení, indikátor VIF X se bude rovnat (nebo blízko) jedné, posílení spojení vede k tendenci tohoto ukazatele k nekonečnu. Myslí si, že kdyby VIF X >3 pro každou proměnnou *, pak dojde k multikolinearitě.

Měřič multikolinearity je také tzv ukazatel (číslo) podmíněnosti matrice Je rovna poměru maximálních a minimálních vlastních hodnot této matice:

Předpokládá se, že pokud řád tohoto poměru překročí 10s–106, dojde k silné multikolinearitě.

Zkontrolujme přítomnost multikolinearity v příkladu 2.1, který uvažujeme. Matice párových korelačních koeficientů má tvar

Lze poznamenat, že souvislosti mezi vysvětlujícími proměnnými jsou poměrně těsné, zejména mezi proměnnými Xj a x2; X] a x3, což ukazuje na vzájemnou korelaci těchto proměnných. Více slabé spojení pozorované mezi proměnnými x2 a x3. Pojďme najít determinant matice r^..

Výsledná hodnota je blíže nule než jedné, což ukazuje na přítomnost multikolinearity ve vysvětlujících proměnných.

Ověřme platnost zahrnutí všech tří nezávislých proměnných do regresního modelu pomocí pravidla (2.59). Párové lineární korelační koeficienty závislých a nezávislých proměnných jsou stejné

Jsou větší než indikátory blízkosti vztahu mezi nezávislými proměnnými, proto je splněno pravidlo (2.59), do regresního modelu lze zahrnout všechny tři proměnné.

Změřme míru multikolinearity proměnných pomocí variačního inflačního faktoru ( VIF). K tomu je nutné vypočítat koeficienty determinace pro regrese:

K tomu je nutné aplikovat OLS na každou regresi, odhadnout její parametry a vypočítat koeficient determinace. Pro náš příklad jsou výsledky výpočtu následující:

Proto bude variační inflační faktor pro každou nezávislou proměnnou roven

Všechny vypočtené hodnoty nepřesáhly kritická hodnota, rovnající se třem, proto lze při konstrukci modelu existenci vztahů mezi nezávislými proměnnými zanedbat.

Pro nalezení vlastních hodnot matice (pro výpočet indexu podmíněnosti η (2.60)) je nutné najít řešení charakteristické rovnice

Matice pro náš příklad vypadá takto

a matice, jejíž modul determinantu se musí rovnat nule, bude následující:

Charakteristický polynom v v tomto případě bude mít čtvrtý stupeň, což ztěžuje ruční řešení problému. V tomto případě se doporučuje využít možnosti počítačová technologie. Například v PPP EViews Získají se následující vlastní hodnoty matice:

Proto bude index podmíněnosti η roven

což ukazuje na přítomnost silné multikolinearity v modelu.

Způsoby eliminace multikolinearity jsou následující.

  • 1. Analýza vztahů mezi proměnnými zahrnutými do regresního modelu jako vysvětlující (nezávislé) s cílem vybrat pouze ty proměnné, které spolu slabě souvisí.
  • 2. Funkční transformace úzce souvisejících proměnných. Předpokládáme například, že daňové příjmy ve městech závisí na počtu obyvatel a rozloze města. Je zřejmé, že tyto proměnné spolu úzce souvisí. Mohou být nahrazeny jedinou relativní proměnnou, „hustotou populace“.
  • 3. Pokud z nějakého důvodu nelze změnit seznam nezávislých proměnných, můžete použít speciální metody pro úpravu modelů k odstranění multikolinearity: hřebenová regrese, metoda hlavních komponent.

aplikace hřebenová regrese zahrnuje úpravu prvků hlavní diagonály matice o nějakou libovolně určenou kladnou hodnotu τ. Doporučuje se vzít hodnotu od 0,1 do 0,4. N. Draper, G. Smith ve své práci představují jednu z metod „automatického“ výběru hodnoty τ, kterou navrhli Hoerl, Kennard a Beldwin:

(2.61)

Kde T– počet parametrů (bez volného termínu) v původním regresním modelu; SS e – zbytkový součet čtverců získaných z původního regresního modelu bez úpravy o multikolinearitu; A– sloupcový vektor regresních koeficientů transformovaný vzorcem

(2.62)

Kde cij– parametr pro proměnnou y v původním regresním modelu.

Po zvolení hodnoty τ bude mít vzorec pro odhad regresních parametrů tvar

(2.63)

Kde matice identity; X,– matice hodnot nezávisle proměnných: původní nebo transformovaná podle vzorce (2.64); Υ τ je vektor hodnot závislé proměnné: původní nebo transformované podle vzorce (2.65).

(2.64)

a výsledná proměnná

V tomto případě je po odhadu parametrů pomocí vzorce (2.63) nutné přistoupit k regresi na původní proměnné pomocí vztahů

Odhady regresních parametrů získané pomocí vzorce (2.63) budou zkreslené. Protože je však determinant matice větší než determinant matice, rozptyl odhadů regresních parametrů se sníží, což pozitivně ovlivní prediktivní vlastnosti modelu.

Zvažme použití hřebenové regrese například 2.1. Zjistime hodnotu τ pomocí vzorce (2.61). K tomu nejprve vypočítáme vektor transformovaných regresních koeficientů pomocí vzorce (2.62):

Produkt je 1,737-109. Proto bude doporučené τ

Po aplikaci vzorce (2.63) a transformací podle vzorce (2.66) získáme regresní rovnici

aplikace analýza hlavních komponent zahrnuje přechod od vzájemně závislých proměnných x k na sobě nezávislým proměnným ζ, které se nazývají hlavní

komponenty. Každá hlavní složka, z, může být reprezentována jako lineární kombinace centrovaných (nebo standardizovaných) vysvětlujících proměnných t:. Připomeňme, že centrování proměnné zahrnuje odečítání od každé i-té hodnoty dané j-tý proměnná její průměrné hodnoty:

a standardizace (škálování) je dělení výrazu (2.67) směrodatnou odchylkou vypočtenou pro počáteční hodnoty proměnné Xj

Protože nezávislé proměnné často mají různé měřítko měření, vzorec (2.68) je považován za vhodnější.

Počet složek může být menší nebo roven počtu původních nezávislých proměnných R.Číslo součásti Na lze napsat následovně:

(2.69)

Lze ukázat, že odhady ve vzorci (2.69) odpovídají prvkům Na- vlastní vektor matice, kde T– matice velikosti obsahující standardizované proměnné. Číslování hlavních součástí není libovolné. První hlavní složka má maximální rozptyl, odpovídá maximální vlastní hodnotě matice; ten druhý – minimální rozptyl a nejmenší vlastní hodnota.

Podíl rozptylu Na- složka celkového rozptylu nezávislých proměnných se vypočítá pomocí vzorce

Kde X k – vlastní hodnota odpovídající této složce; jmenovatel vzorce (2.70) obsahuje součet všech vlastních čísel matice.

Po výpočtu hodnot složek z se pomocí OLS vytvoří regrese. Je vhodné vycentrovat (standardizovat) závislou proměnnou v regresi hlavních složek (2.71) pomocí vzorců (2.67) nebo (2.68).

Kde t y – standardizovaná (centrovaná) závislá proměnná; – regresní koeficienty pro hlavní složky; – hlavní komponenty seřazené v sestupném pořadí vlastních čísel X Na ; δ – náhodný zbytek.

Po odhadu regresních parametrů (2.71) můžete přejít k regresní rovnici v původních proměnných pomocí výrazů (2.67)–(2.69).

Uvažujme aplikaci metody hlavní složky na data z příkladu 2.1. Všimněte si, že matice pro standardizované proměnné je zároveň maticí párových lineárních korelačních koeficientů mezi nezávislými proměnnými. Už to bylo spočítáno a je rovno

Pojďme najít vlastní čísla a vlastní vektory této matice pomocí PPP Názory. Dostáváme následující výsledky.

Vlastní čísla matice:

Podíl rozptylu nezávislých proměnných odrážený komponentami byl

Spojme vlastní vektory matice a zapišme je jako sloupce matice níže F. Jsou seřazeny sestupně podle vlastních hodnot, tzn. první sloupec je vlastní vektor maxima vlastní číslo atd.:

Proto tři složky (odpovídající třem vlastní vektory) lze zapsat ve tvaru

Po standardizaci počátečních proměnných podle vzorce (2.68) a výpočtu hodnot složek (n hodnot každé složky) pomocí nejmenších čtverců najdeme parametry rovnice (2.71):

Ve výsledné regresní rovnici je významný pouze parametr na první složce. To je přirozený výsledek, vezmeme-li v úvahu skutečnost, že tuto součást popisuje 70,8 % variace v nezávislých proměnných. Vzhledem k tomu, že komponenty jsou nezávislé, když jsou některé komponenty vyloučeny z modelu, parametry rovnice pro ostatní komponenty se nemění. Máme tedy regresní rovnici s jednou složkou:

Převedeme výsledný výraz na regresi s původními proměnnými

Pomocí metody hlavní složky jsme tedy získali regresní rovnici

Odstranění multikolinearity pomocí ridge regrese a metody hlavní složky vedlo k určité změně parametrů původní regrese, která měla tvar

Všimněte si, že tyto změny byly relativně malé, což ukazuje na nízký stupeň multikolinearity.

  • Viz např. Vuchkov I., Boyadzhieva L., Solakov E. Aplikovaná regresní analýza: přel. z bulharštiny M.: Finance a statistika, 1987. S. 110.
  • Draper N., Smith G. Dekret. Op. S. 514.

1. Pro regresní model v závislosti na průměrném peněžním příjmu obyvatel na hlavu (RUB, na) z objemu hrubého regionálního produktu (tis. rublů, x 1) a míra nezaměstnanosti v předmětu (%, x 2) je získána rovnice. Hodnota regresního koeficientu pro proměnnou x 2 ukazuje, že když se míra nezaměstnanosti změní o 1 %, průměrný peněžní příjem na hlavu ______ rublů při konstantní hodnotě hrubého regionálního produktu.

se změní na (-1,67)

se zvýší o 1,67

se sníží o (-1,67)

se změní na 0,003

Řešení:

Ekonometrický model lineární rovnice regrese má tvar , kde y- závislá proměnná, x j – nezávisle proměnná ( – číslo nezávisle proměnné v modelu, k– celkový počet nezávislých proměnných v modelu); A,b j y další faktory, které nejsou nezávislými proměnnými v modelu). Parametrem je regresní koeficient b j. Jeho hodnota ukazuje, jak moc se bude závislá proměnná v průměru měnit y, při změně odpovídající nezávislé proměnné x j na 1 měrnou jednotku. Pokud se tedy míra nezaměstnanosti změní o 1 %, průměrný peněžní příjem na hlavu se změní o (-1,67) rublů, přičemž hrubý regionální produkt zůstane nezměněn.

2. V lineární vícenásobné regresní rovnici: , kde jsou náklady na dlouhodobý majetek (tisíc rublů); – počet zaměstnanců (tis. osob); y- hlasitost průmyslová produkce(tisíc rublů) parametr s proměnnou x 1, rovna 10,8, znamená, že při nárůstu objemu stálých aktiv o _____ se objem průmyslové výroby _____ při konstantním počtu zaměstnanců.

za 1 tisíc rublů. ... se zvýší o 10,8 tisíc rublů.

za 1 tisíc rublů. ... se sníží o 10,8 tisíc rublů

za 1 tisíc rublů. … vzroste o 10,8 %

o 1%...zvýšení o 10,8%

Řešení:

V rovnici vícenásobné lineární regrese , parametr ukazuje průměrnou změnu výsledku y když se faktor zvýší o jednu jednotku za předpokladu, že všechny ostatní proměnné zůstanou na konstantní úroveň. V našem případě objem průmyslové výroby y charakterizované následující rovnicí , parametr se rovná 10,8, tedy se zvýšením objemu dlouhodobého majetku o 1 000 rublů. objem průmyslové výroby se zvýší o 10,8 tisíc rublů. se stálým počtem zaměstnanců.

3. Je známo, že podíl zbytkového rozptylu závislé proměnné na jejím celkovém rozptylu je 0,2. Pak je hodnota koeficientu determinace...

Řešení:

Koeficient determinace se rovná podílu rozptylu vysvětleného regresí na celkovém rozptylu. Hodnota () ukazuje podíl zbytkového rozptylu na součtu nebo rozptylu způsobeného vlivem jiných faktorů nezohledněných v modelu.
. Prostředek,

4. Byl sestaven ekonometrický model pro závislost zisku na prodej jednotky produkce (rub., na) z výše pracovního kapitálu podniku (tisíc rublů, x 1): . V důsledku toho je průměrný zisk z prodeje, který nezávisí na objemu pracovního kapitálu podniku, _____ rublů.

Řešení:

Ekonometrický model lineární rovnice párové regrese má tvar: , Kde y- závislá proměnná, X - nezávislé proměnné; A,b– parametry rovnic; – chyba modelu (bere v úvahu vliv na závisle proměnnou y další faktory, které nejsou nezávislými proměnnými v modelu). Hodnota parametru A lze vypočítat pomocí vzorce. Pokud , pak ; v tomto případě říkají, že průměrná hodnota proměnné y nezávisle na hodnotě proměnné X, rovno hodnotě parametru A. V důsledku toho je průměrný zisk z prodeje, který nezávisí na objemu pracovního kapitálu podniku, 10,75 rublů.

5. F-statistika se vypočítá jako poměr ______ rozptylu k ________ rozptylu, vypočtený na stupeň volnosti.

faktoriál...zbytkový

zbytkový...faktorový

faktoriál... k obecnému

zbytkový...celkový

Řešení:

F-statistika se vypočítá jako poměr rozptylu faktoru na jeden stupeň volnosti ke zbytkovému rozptylu na jeden stupeň volnosti.

Téma 5: Odhad parametrů lineárních regresních rovnic

1. Pro model ekonometrické regresní rovnice je chyba modelu definována jako ______ mezi skutečnou hodnotou závislé proměnné a její odhadovanou hodnotou.

rozdíl

součet čtverců rozdíl

čtvercový rozdíl

součet rozdílu čtverců

Řešení:

Jeden z typů ekonometrické modely je regresní rovnice, kterou lze zapsat jako matematický výraz, kde y- závislá proměnná; x j- nezávislé proměnné ( j= 1,…, k; k– počet nezávislých proměnných); F- typ funkční závislost (matematická funkce); – náhodné faktory. V tomto případě potom , kde je skutečná hodnota závislé proměnné, je vypočítaná hodnota závislé proměnné a je chyba modelu. Vyjádřeme hodnotu: . Správná odpověď je tedy „rozdíl“.

2. Množství se nazývá...

náhodná složka

odhad parametrů

hodnota parametru

variabilní

Řešení:

Veličina se nazývá náhodná složka nebo porucha a zahrnuje vliv faktorů nezohledněných v modelu, výběrové chyby a chyby měření.

3. V ekonometrickém modelu regresní rovnice odchylka skutečné hodnoty závislé proměnné od její vypočtené hodnoty charakterizuje ...

T.G. TURNEV

PRAKTIKUM Z EKONOMETRIE

LINEÁRNÍ MODEL PÁROVÉ REGRESE

Ekonometrie je věda, která studuje specifické kvantitativní a kvalitativní vztahy mezi ekonomickými objekty a procesy pomocí matematických a statistických metod a modelů. (Velký encyklopedický slovník - M., BRE, 1977)

Ekonometrické metody jsou především metody statistické analýzy konkrétních ekonomických dat.

Vyhodnocení výsledků ekonometrického modelování je dosaženo řešením kvalitativního a kvantitativního problému. Kvalitativní složkou je stanovit soulad mezi vytvořeným modelem a základním ekonomickým konceptem a kvantitativní složkou je přesně aproximovat dostupné informace s daty výpočtu.

Z praktického hlediska mezi hlavní úkoly ekonometrie patří:

    konstrukce ekonometrických modelů – prezentace ekonomických modelů v matematické formě vhodné pro empirickou analýzu. Tento problém nazývaný problém specifikace, který lze vyřešit několika způsoby;

    posouzení parametrů konstruovaného modelu, což nám umožňuje charakterizovat adekvátnost modelu reálnými daty. Tento problém je vyřešen ve fázi parametrizace;

    kontrola kvality výsledného modelu jako celku. Tento úkol implementováno ve fázi ověřování;

    použití konstruovaného modelu pro prognózování.

Párový lineární regresní model je speciálním případem vícerozměrného regresního modelu. Jeho studium je nezávislé, protože má mnoho charakteristických vlastností obecných vícerozměrných modelů, ale je vizuálnější a snáze se studuje.

Výpočetní a grafické práce v ekonometrii

Párový lineární regresní model

    Sestrojte korelační pole a formulujte hypotézu o formě spojení.

Nechť existují dvě řady empirických dat X (X 1 , X 2 , …, X n ) A Y (y 1 , y 2 , …, y n ) , odpovídající body se souřadnicemi (X i , y i ), Kde i=1,2,…, n, zobrazení v souřadnicové rovině. Tento obrázek se nazývá korelační pole. Předpokládejme z umístění empirických bodů, že mezi proměnnými existuje lineární korelace X A Y.

Obecně teoretický lineární párový regresní model může být reprezentován jako:

Y=
nebo y i =
, i=1,2,…, n;

Kde Y– vysvětlená (výsledná, závislá, endogenní) proměnná,

X - vysvětlující (faktoriální, nezávislá, exogenní) proměnná nebo regresor;

- teoretické parametry (numerické koeficienty) regrese, které mají být odhadnuty;

ε i- náhodná odchylka (porucha, chyba).

Hlavní hypotézy:

3a. M ε i =0, i=1,2,…, n.

3b. D ε i=σ 2, i=1,2,…, n. Je volána podmínka, aby odchylka chyby byla nezávislá na čísle pozorování homoskedasticita; nazývá se případ, kdy není splněna podmínka homoskedasticity heteroskedasticita.

3s. M( ε i ε j )=0 at ij , nekorelované chyby pro různá pozorování. Pokud tato podmínka není splněna, mluvit o autokorelaci chyby.

    Poruchy jsou normálně distribuovány náhodné proměnné: ε i N(0, σ 2 ).

Komentář. K získání regresní rovnice stačí první tři premisy. Pro posouzení přesnosti regresní rovnice a jejích parametrů musí být splněn čtvrtý předpoklad.

Úkolem lineární regresní analýzy je využít k tomu dostupná statistická data (X i , y i ), i=1,2,…, n, pro proměnné X a Y dostanu nejlepší odhady neznámé parametry, tedy sestavení tzv empirická regresní rovnice

Kde
odhad podmíněného matematického očekávání M(Y/ X=x i);
odhady neznámých parametrů, tzv empirické koeficienty regrese. V každém konkrétním případě můžeme psát

, i=1,2,…, n,

kde jsou odchylky E i– chyby (rezidua) modelu, což jsou odhady teoretické náhodné odchylky ε i .

2. Metodou vypočítejte parametry vzorové lineární regresní rovnice nejmenší čtverce(MNC).

Klasický přístup k odhadu parametrů lineární regrese je založen na metodě nejmenších čtverců (OLS). V metodě nejmenších čtverců jsou odhady parametrů modelu konstruovány tak, aby minimalizovaly součet chyb modelu na druhou ve všech pozorováních. Kritérium nejmenších čtverců je tedy zapsáno takto:

Nutná podmínka pro existenci minima funkce S(b 0 , b 1 ) je rovnost nule jeho parciálních derivací vzhledem k neznámým b 0 A b 1 (pro stručnost vynecháme sumační indexy u součtového znaménka Σ):

Tento systém rovnic se nazývá soustava normálních rovnic pro regresní koeficienty.

Řešením této soustavy dvou lineárních rovnic se dvěma neznámými např. substituční metodou získáme:

Kde
výběrové průměry proměnných X a Y.

.

S geometrický bod Z hlediska minimalizace součtu čtverců odchylek znamená výběr jediné přímky (ze všech přímek s parametry), která je na ordinátách nejblíže systému vzorových bodů. (X i , y i ), i=1,2,…, n.

Regresní rovnice je vždy doplněna o indikátor těsnosti souvislosti. Při použití lineární regrese je tento ukazatel lineární korelační koeficient r xy. Existuje několik typů vzorce lineárního korelačního koeficientu, hlavní z nich jsou:

.

Korelace mezi proměnnými se nazývá přímá if r xy . >0, a naopak pokud r xy

Pro praktické výpočty je nejvhodnější vzorec

,

protože podle něj se korelační koeficient zjistí z pozorovacích dat a hodnota r xy chyba zaokrouhlení není ovlivněna.

Korelační koeficient nabývá hodnot od -1 do +1.

Když je korelační koeficient roven 1 spojení je reprezentováno lineární funkční závislostí. V tomto případě jsou všechny pozorované hodnoty umístěny na regresní přímce.

Na r xy=0 korelace mezi charakteristikami v lineární forma nepřítomný. V tomto případě je regresní přímka rovnoběžná s osou Ox.

Na r xy > 0 – korelace mezi proměnnými se nazývá přímá a kdy r xy

Chcete-li charakterizovat sílu spojení, můžete použít stupnici Chaddok.

Index

těsnost komunikace

Charakteristický

pevnost vazby

Mírný

Znatelné

Velmi vysoko

Pro posouzení kvality proložení lineární funkce se vypočítá druhá mocnina lineárního korelačního koeficientu r xy 2 , volal koeficient determinace. Označme koeficient determinace R 2 , Že. my máme

R 2 = r xy 2 .

Koeficient determinace charakterizuje podíl rozptylu výsledné charakteristiky Y vysvětlené regresí na celkovém rozptylu výsledné charakteristiky. V souladu s tím hodnota 1- R 2 charakterizuje podíl rozptylu v Y způsobený vlivem dalších faktorů nezohledněných v modelu.

Komentář. Výpočet R 2 správné, pokud je konstanta zahrnuta v regresní rovnici.

Empirická regresní rovnice je určena na základě konečného počtu statistik. Je zřejmé, že koeficienty empirické regresní rovnice jsou náhodné proměnné, které se liší vzorek od vzorku. Při dirigování Statistická analýza je potřeba porovnávat empirické regresní koeficienty b 0 A b 1 s nějakými teoreticky očekávanými hodnotami
tyto koeficienty. Tato analýza je provedena podle schématu testování statistických hypotéz.

Abych ověřil hypotézu

H 0: b 1 = β 1 ,

H 1: b 1 β 1

používá se statistika
, který, pokud platí hypotéza H 0, má Studentovo rozdělení s počtem stupňů volnosti df = n – 2 , Kde
- směrodatná chyba regresního koeficientu b 1 ,
.

Nejdůležitější v počáteční fázi statistické analýzy konstruovaného modelu je úkol stanovit přítomnost lineární závislost mezi Y a X. Tento problém lze vyřešit testováním hypotézy

H 0: b 1 = 0,

H 1: b 1 0.

Hypotéza v této formulaci se obvykle nazývá hypotéza o statistické významnosti regresního koeficientu. Navíc, pokud je přijata nulová hypotéza, pak existuje důvod se domnívat, že hodnota Y nezávisí na koeficientu X b 1 statisticky nevýznamné(je příliš blízko nule). Pokud je odchylka H 0, uvažuje se koeficient statisticky významný, což ukazuje na přítomnost určitého lineárního vztahu mezi Y a X. Použito v tomto případě t- statistika má tvar:
a podle nulové hypotézy má Studentovo rozdělení s ( n -2) stupně svobody.

Pokud je vypočtená hodnota t- statistika- |t fakt| α větší než kritická (tabulková) t stůl, tj.

|t fakt|>t stůl= t(α ; n-2),

pak hypotéza H 0: b 1 = 0, je zamítnuta ve prospěch alternativy na zvolené hladině významnosti. To potvrzuje statistickou významnost regresního koeficientu b 1 .

Pokud |t fakt| stůl = t(α; n-2), pak hypotéza H 0 není zamítnuta. Kritická hodnota t stůl= t(α; n-2), α a počet stupňů volnosti n -2 se nachází v tabulkách 2 přílohy.

Podle podobného schématu založeného na t– statistika testuje hypotézu o statistické významnosti koeficientu b 0 :

,

Kde
A
- směrodatná chyba regresního koeficientub 0 .

    Sestrojte intervalové odhady regresních parametrů. Zkontrolujte, zda jsou získané výsledky v souladu se závěry získanými v předchozím odstavci.

Vzorce pro výpočet intervalů spolehlivosti jsou následující:

které spolehlivě (1 – α) pokrývat stanovené parametry.

Pokud nula spadá do hranic intervalů spolehlivosti, tzn. Pokud je spodní mez záporná a horní mez kladná, pak je odhadovaný parametr považován za statisticky nevýznamný.

    Sestavte analýzu rozptylové tabulky, abyste vyhodnotili význam rovnice jako celku.

Šek význam regresní rovnice- prostředky ke zjištění, zda matematický model vyjadřující vztah mezi proměnnými odpovídá dostupným údajům a zda vysvětlující proměnné zahrnuté v rovnici postačují k popisu závislé proměnné.

Posouzení významnosti rovnice jako celku je uvedeno pomocí F– Fisherovo kritérium. V tomto případě je předložena nulová hypotéza, že regresní koeficient je roven nule, tzn. H0: β 1 =0, faktor tedy neovlivňuje výsledek.

Přímá platba F– kritérium předchází rozbor rozptylu výsledné charakteristiky Y. Centrální místo v ní zaujímá rozklad celkového součtu kvadrátů odchylek proměnné y od střední hodnoty. na dvě části – „vysvětlené“ a „zbytkové“ („nevysvětlené“):

= +

Celkový součet čtverců Součet čtverců Zbytkový součet

odchylky = vysvětlené odchylky + čtverce

regrese odchylek

Označme SS celkem =, SS R =
a SS ost =
.

Jakýkoli součet čtverců odchylek souvisí s počtem stupňů volnosti df (stupeň z svoboda), tj. s počtem volnosti nezávislých variací charakteristiky.

Počet stupňů volnosti souvisí s počtem populačních jednotek n a s počtem konstant z něj určeným. Počet stupňů volnosti zbytkového součtu čtverců v lineární párové regresi je n - 2 , celkový součet čtverců – n -1 a počet stupňů volnosti pro faktorový součet čtverců, tj. vysvětlený regresí, je roven jednotka. Máme rovnost:

n – 1 = 1+ (n – 2).

Vydělením každého součtu čtverců odpovídajícím počtem stupňů volnosti získáme střední kvadratická odchylka nebo disperze na stupeň volnosti.

;

Definování rozptylu na stupeň volnosti přináší rozptyly do srovnatelné podoby. Porovnáním faktoru a zbytkového rozptylu na jeden stupeň volnosti získáme hodnotu F-vztah nebo F– kritérium, jehož statistiky F pod nulovou hypotézou

~ F(1, n-2)

rozdělené podle Fisherova zákona se stupni volnosti (1, n-2).

Pokud je vypočtená hodnota F-vztah - Fskutečnost na danou úroveň důležitost α více než kritický (tabulkový) Fstůl, tj.

Fskutečnost> Fstůl =F(α;1,n-2),

pak hypotéza H 0: β 1 =0 je zamítnuta, je uznána statistická významnost regresní rovnice, tzn. mezi uvažovanými charakteristikami existuje souvislost a výsledky pozorování nejsou v rozporu s předpokladem její linearity.

Li Fskutečnost F stůl =F(α;1,n-2), pak není hypotéza H 0 zamítnuta, regresní rovnice je považována za statisticky nevýznamnou.

Kritická hodnota Fstůl =F(α;1,n-2), na dané hladině významnosti α a počet stupňů volnosti 1; n -2 se nachází v tabulkách 1 přílohy.

Posouzení významnosti regresní rovnice se obvykle podává formou analýzy rozptylové tabulky.




Horní