Kritéria pro hodnocení kvality regresního modelu nebo který model je dobrý a který je lepší. Statistická významnost logitových a probitových modelů a faktory těchto modelů

Výpočet parametrů a konstrukce regresních modelů

Korelační analýza

Jeho účelem je určit povaha spojení(přímé, zpětné) a síla spojení(žádné spojení, slabé spojení, střední, znatelné, silné, velmi silné, úplné spojení). Korelační analýza vytváří informace o povaze a závažnosti vztahu (korelační koeficient), které slouží k výběru významných faktorů a také k plánování efektivní sekvence pro výpočet parametrů regresních rovnic. Pokud existuje jeden faktor, vypočítá se korelační koeficient, a pokud existuje více faktorů, sestaví se korelační matice, ze které se určí dva typy souvislostí: (1) souvislosti mezi závisle proměnnou a nezávislými, (2 ) spojení mezi samotnými nezávislými.

Zohlednění matice umožňuje za prvé, identifikovat faktory skutečně ovlivňovat studovanou závislou proměnnou a uspořádat (seřadit) je v sestupném pořadí spojení; za druhé, minimalizovat počet faktorů v modelu, s vyloučením některých faktorů, které silně nebo funkčně souvisí s jinými faktory ( mluvíme o o vztazích mezi nezávislými proměnnými).

Je známo, že v praxi jsou nejspolehlivější jedno- a dvoufaktorové modely.

Pokud se zjistí, že dva faktory mají silný resp plná komunikace mezi sebou, pak v regresní rovnice Bude stačit zapnout jeden z nich.

Zde se snaží najít co nejvíce přesná míra identifikované spojení, aby bylo možné předvídat, předpovídat hodnoty závislé proměnné Y, pokud jsou známy hodnoty nezávislých proměnných X 1, X 2,.... X n

Tato míra je obecně vyjádřena matematickým modelem lineární vícenásobné regrese:

Y = a 0 + b 1 X 1 + b 2 X 2 + ... +b n X n

Počítač vypočítá parametry modelu: volný termín 0(konstanta nebo průnik) a koeficienty b p(regresní koeficienty). Velikost na se nazývá odpověď a X 1, X 2, ..., X str- faktory nebo prediktory.

Po získání každé verze rovnice je povinným postupem vyhodnocení její statistické významnosti, protože hlavním cílem je získat rovnici s nejvyšší významností. Avšak vzhledem k tomu, že výpočty provádí počítač a rozhodnutí na základě posouzení významnosti rovnice činí výzkumník (přijmout nebo zamítnout rovnici), třetí stupeň této technologie člověk-stroj lze podmíněně rozlišit jako inteligentní nestrojový stupeň, pro který skoro všechno data pro posouzení významnosti rovnice připravuje počítač.

Statistická významnost, to znamená vhodnost postulovaného modelu pro použití při predikci hodnot odezvy. Pro posouzení kvality výsledného modelu program také vypočítal řadu koeficientů, které musí výzkumník zvážit, porovnal je se známými statistickými kritérii a model vyhodnotil z hlediska zdravého rozumu.



V této fázi výhradně důležitou roli roli hraje koeficient determinace a F-test regresní významnosti.

R čtvercový(R 2) - koeficient determinace - je druhá mocnina vícenásobného korelačního koeficientu mezi pozorovanou hodnotou Y a jeho teoretickou hodnotu, vypočítanou na základě modelu s určitým souborem faktorů. Koeficient determinace měří platnost modelu. Může nabývat hodnot od 0 do 1. Tato hodnota je užitečná zejména pro porovnávání řad různé modely a vybrat ten nejlepší model.

R2 je podíl variace v předpokládané (teoretické) hodnotě Y vzhledem k pozorovaným hodnotám Y, vysvětlený faktory zahrnutými v modelu. Je velmi dobré, pokud R2 >= 80 %. Zbývající část teoretických hodnot Y závisí na dalších faktorech, které nejsou zahrnuty v modelu. Úkolem výzkumníka je najít faktory, které se zvyšují R 2, k poskytnout vysvětlení pro odchylky v předpovědi, abyste získali ideální rovnici. Nicméně koeficient R 2 nanejvýš může dosáhnout hodnoty 1 (nebo 100 %), když jsou hodnoty všech faktorů různé. A pokud data obsahují opakované experimenty, pak hodnotu R 2 nemůže dosáhnout 1, bez ohledu na to, jak dobrý je model. Před zahájením regresního výpočtu by proto měla být ze zdrojové tabulky odstraněna duplicitní data. Nějaký softwarové balíčky automaticky odstranit duplikát a ponechat pouze jedinečná data. Opakování stejných dat snižuje spolehlivost odhadů modelu. R2 = 1 pouze s úplnou shodou mezi experimentálními (pozorovanými) a teoretickými (vypočtenými) daty, tedy když se teoretické hodnoty přesně shodují s pozorovanými. To je však považováno za vysoce nepravděpodobnou událost.

Prostředky regresní analýza, vč. Excel, vypočítané F-test regresní významnosti pro rovnici jako celek. Jedná se o hodnotu vypočítanou z pozorovaných dat. Fp (F vypočítané, pozorované) by měly být porovnány s odpovídající kritickou hodnotou Fк, (F kritické, tabulkové) (viz příloha A). Výzkumník vybírá Fk z publikovaných statistických tabulek na dané úrovni pravděpodobnosti (na úrovni, na které byly vypočteny parametry modelu, např. 95 %).

Pokud pozorovaná hodnota Fp bude menší než kritická hodnota Fk, pak rovnici nelze považovat za významnou. V jiné terminologii lze říci totéž: nulová hypotéza o významnosti všech regresních koeficientů v postulovaném modelu není zamítnuta, tj. koeficienty jsou prakticky rovné nule.

Elektronická technologie korelační a regresní analýzy se stává naprosto zbytečnou, pokud vypočítaná data nejsou zcela správně interpretována.

Pokud je výsledný model statisticky významný, použije se pro prognózu, kontrolu nebo vysvětlení.

Pokud je zjištěna nevýznamnost, pak je model odmítnut, za předpokladu, že nějaká jiná forma spojení, kterou je třeba hledat, bude pravdivá.

Kvalita modelu bude hodnocena pomocí Studentova a Fisherova kritéria porovnáním vypočtených hodnot s tabulkovými.

Pro posouzení kvality modelu pomocí Studentova kritéria je skutečná hodnota tohoto kritéria (t obs)

ve srovnání s kritickou hodnotou t cr který je převzat z tabulky hodnot t s přihlédnutím danou úroveň význam ( a = 0,05) a počet stupňů volnosti (n - 2).

Li t pozorováno > t cr, pak je výsledná hodnota párového korelačního koeficientu považována za významnou.

Kritická hodnota at a rovný .

Ověřte si význam koeficientu determinace pomocí F- Fisherovo kritérium.

Pojďme spočítat statistiky F podle vzorce:

m = 3– počet parametrů v regresní rovnici;

N=37– počet pozorování ve výběrové populaci.

Matematický model statistické rozdělení F-statistika je Fisherovo rozdělení se stupni volnosti. Kritická hodnota této statistiky pro a a stupně volnosti je rovna .

Fisherovo kritérium
F calc F kr Regresní rovnice
8916.383 3.276 přiměřeně

Tak vysvětluje model 99.8% celkový rozptyl vlastností Y. To znamená, že osazený model je adekvátní.


Výpočet předpokládaných hodnot a součtu kvadrátů odchylek.

Vstupme do cely Q2 vzorec =$F$54*N2+$E$54*O2(výpočet predikovaných hodnot), poté jej zkopírujte do buněk Q3:Q38. Do buňky R2 vzorec =(P2-Q2)^2(výpočet součtu kvadrátů odchylek), poté jej zkopírujte do buněk R3:R38 a vypočítat součet výsledných hodnot v buňce R39.

X 2 X 5 Y y(x) (Y - y(x)) 2
605.1 2063.2 1626.7 1589.7 1367.523
620.1 2143.7 1602.5 1650.5 2303.318
2447.7 1880.7 1914.5 1144.709
862.1 2406.4 1982.7 1876.9 11189.53
958.4 2592.9 2026.7 106.5821
1488.9 2193.9 2180.4 182.342
1231.5 2529.7 2152.1 2020.4 17335.88
1429.6 2644.9 2133.1 8814.026
1679.5 2793.7 2344.4 2277.8 4436.216
1326.2 2669.2 2341.7 2135.8 42415.15
1456.8 2211.9 2282.7 5014.463
2523.6 2990.5 2629.8 2543.9 7377.384
2659.8 2017.5 2059.0 1722.637
923.8 2636.6 2009.4 2053.4 1939.955
1173.3 2943.1 2312.8 2792.24
1156.7 2890.9 2400.1 2272.4 16298.85
1450.2 3051.5 2508.1 2432.0 5784.146
1845.2 2684.1 2633.3 2581.453
1566.4 3052.6 2736.6 2449.8 82275.65
1729.7 3349.7 2824.5 2689.8 18152.31
1987.3 3456.3 2880.2 2804.9 5676.928
1902.7 3731.2 2812.9 2992.6 32297.9
1839.1 3517.8 2704.2 2828.0 15336.69
3953.7 3823.1 3224.2 3358.1 17922.28
1351.2 3482.9 2584.7 2731.6 21584.07
1185.3 3347.6 2466.7 2609.0 20246.66
1715.5 3585.4 2928.3 2859.2 4768.047
1536.4 3678.3 3036.4 2900.8 18389.81
1823.1 3801.6 3021.1 3032.3 124.6986
2452.1 4002.1 3237.6 3269.8 1034.273
2076.6 3990.3 3247.1 3206.5 1647.633
2129.2 3436.9 3375.5 3767.099
2502.7 4154.2 3472.8 3387.8 7220.377
2238.7 4322.7 3504.1 3472.0 1028.291
2417.6 4623.1 3357.1 3716.7 129321.2
3838.4 4817.9 4034.7 4065.3 937.7363
1468.6 3450.4 3585.0 18128.14
532666.2



Formulář hlášení

Možnosti

Tarify za inzerci a charakteristiku časopisů
Název časopisu Y, tarif (jedna stránka barevné inzerce), USD. X 1, plánované publikum, tisíc lidí X 2, procento mužů X 3, střední příjem rodiny, dolary
Audubon 25 315 51,1 38 787
Lepší domy a zahrady 198 000 34 797 22,1
Business Week 68,1 63 667
Kosmopolitní 15 452 17,3 44 237
Elle 55 540 12,5 47 211
Podnikatel 40 355 2 476 60,4 47 579
Vážený pan 71,3 44 715
Rodinný kruh 147 500 24 539 38 759
první pro ženy 28 059 3 856 3,6 43 850
Forbes 59 340 68,8 66 606
Štěstí 3 891 68,8 58 402
Půvab 85 080 7,8
Goff Digest 6 250 78,9
Dobrý úklid 166 080 25 306 12,6 38 335
Gurmán 49 640 29,6 57 060
Harper's Bazaar 52 805 2 621 11,5 44 992
Inc. 70 825 66,9
Kiplingerovy osobní finance 65,1 63 876
Dámy" Home Journal 127 000 6,8
Život 63 750 14 220 46,9
Mademoiselle 55 910
Martha Stewartová žije 93 328 4 849 16,6
McCalls 7,6 33 823
Peníze 98 250 60,6
Motorový trend 79 800 5 281 88,5 48 739
National Geographic 44 326
Přírodopis
Newsweek 148 800 20 720 53,5 53 025
Rodičovský časopis 72 820 18,2
PC Computing 40 675 57 916
Lidé 125 000 33 668
Populární mechanika 86,9
Reader's Digest 42,4 38 060
Redbook 95 785 13 212 8,9 41 156
Rolling Stone 78 920 8 638 59,8 43 212
Běžecký svět 36 850 2 078 62,9 60 222
Scientific American 37 500 2 704
Sedmnáct 71 115 5 738 37 034
Lyže 32 480 2 249 64,5 58 629
Chytré peníze 42 900 2 224 63,4
Smithsonian 73 075 8 253 47,9
Přehled mýdlové opery 35 070 7 227 10,3
Sports Illustrated 162 000 78,8 45 897
Západ slunce 56 000 5 276 38,7 52 524
dospívající 53 250 3 057 15,4
The New Yorker 62 435 3 223 48,9
Čas 162 000 22 798 52,4
Pravdivý příběh 12,2
TV průvodce 42,8 37 396
NÁS. Zprávy a světová zpráva 98 644 9 825 57,5 52 018
Vanity Fair 67 890 4 307 27,7
Móda 63 900 12,9 44 242
Den žen 137 000 22 747 6,7
pracující žena 87 500 6,3 44 674
YM 73 270 14,4 43 696
Průměrná hodnota 83 534 39,7 47 710
Směrodatná odchylka 25,9 10 225

Bezpečnostní otázky

Párová regrese

1. Co znamená párová regrese?

2. Jaké problémy se řeší při konstrukci regresní rovnice?

3. Jaké metody se používají pro výběr typu regresního modelu?

4. Jaké funkce se nejčastěji používají ke konstrukci rovnice párů?

5. Noemova regrese?

6. Jaký tvar má soustava normálních rovnic metody nejmenších

7. čtverečky v případě lineární regrese?

8. Jak se počítá index determinace a co ukazuje?

9. Jak se kontroluje významnost regresní rovnice?

10. Jak se kontroluje významnost koeficientů regresní rovnice?

11. Pojem intervalu spolehlivosti pro regresní koeficienty.

12. Koncept bodové a intervalové předpovědi pomocí lineární regresní rovnice.

13. Jak se počítá koeficient pružnosti a co ukazuje E, průměrný koeficient pružnosti Ý ?

Vícenásobná regrese

1. Co znamená vícenásobná regrese?

2. Jak se liší model vícenásobné lineární regrese od modelu párové lineární regrese? Zapište rovnici vícenásobné lineární regrese.

3. Jaké problémy se řeší při konstrukci regresní rovnice?

4. Jaké problémy se řeší při specifikaci modelu?

5. Jaké jsou požadavky na faktory zahrnuté v regresní rovnici?

6. Co znamená kolinearita faktorů?

7. Jak se kontroluje kolinearita?

8. Jaké přístupy se používají k překonání mezifaktorové korelace?

9. Které funkce se nejčastěji používají ke konstrukci rovnice? vícenásobná regrese?

10. Jaký vzorec se používá k výpočtu indexu vícenásobné korelace?

11. Jak se vypočítá index vícenásobné determinace?

12. Jaký je koeficient determinace? Jak jej lze použít k posouzení přiměřenosti modelu?

13. Co znamená nízký vícenásobný korelační koeficient?

14. Jak se kontroluje významnost regresní rovnice a jednotlivých koeficientů?

15. Jak se konstruují hypotézy pro testování významnosti parametrů modelu?

16. Jak se konstruují parciální regresní rovnice?

17. Jak se počítají průměrné koeficienty parciální elasticity?

18. Jak se konstruují intervaly spolehlivosti pro parametry modelu?

19. Co znamená homoskedasticita řady reziduí?

20. Jak se testuje hypotéza o homoskedasticitě řady reziduí?

21. Jak se v modelu nazývá závislá proměnná?

22. Jak se v modelu nazývají nezávislé proměnné?

23. Pojmenujte hlavní metodu konstrukce modelu.

24. Napište vícenásobný regresní model celkový pohled se 3 nezávislými proměnnými

25. Zapište součet kvadrátů odchylek modelu (vzorce)

26. Co je RSS (definice a vzorec)

27. Jak ověřit význam sestrojeného modelu jako celku?

28. Jak ověřit významnost koeficientu pro proměnnou X_3?

29. Formulujte ekonomický smysl koeficient například pro proměnnou X_5

30. Co je to „krátký model“ vícenásobné regrese

Literatura

1. Shanchenko, N. I. Ekonometrie: laboratorní dílna: tréninkový manuál/N. I. Šančenko. – Uljanovsk: UlSTU, 2011. – 117 s.

2. Davnis V.V., Tinyakova V.I. Počítačový workshop ekonometrického modelování. Voroněž, 2003. - 63 s.


Počáteční údaje charakterizují prodejní cenu určitého produktu v určitých okamžicích. Je třeba postavit regresní model dynamika změn tento indikátor. Mezi faktory, o nichž se předpokládá, že ovlivňují tuto hodnotu, patří prodejní cena substitučního produktu, objem prodeje produktu, výše reklamních nákladů a průměrné náklady na reklamu.

Prodejní cena je závislé množství, označme ji Y.

Faktory ovlivňující (pravděpodobně) hodnotu Y budeme označovat X i: X 1 – cena substitučního produktu, X 2 – objem prodeje, X 3 – objem nákladů na reklamu, X 4 – průměrné náklady na reklamu.

Počáteční údaje

Přednáška 2. Korelační a regresní analýza. Párová regrese

1. Podstata korelačně-regresní analýzy a její úkoly.

2. Definice regrese a její typy.

3. Vlastnosti specifikace modelu. Důvody existence náhodné veličiny.

4. Metody výběru párové regrese.

5. Metoda nejmenších čtverců.

6. Indikátory pro měření těsnosti a pevnosti spoje.

7. Odhady statistické významnosti.

8. Predikovaná hodnota proměnné y a intervaly spolehlivosti prognózy.

1. Podstata korelační regresní analýzy a její úkoly. Ekonomické jevy, které jsou velmi rozmanité, se vyznačují mnoha rysy, které odrážejí určité vlastnosti těchto procesů a jevů a podléhají vzájemně závislým změnám. V některých případech se ukazuje, že vztah mezi charakteristikami je velmi blízký (například hodinový výkon zaměstnance a jeho mzda), zatímco v jiných případech není takový vztah vyjádřen vůbec nebo je extrémně slabý (například pohlaví studentů a jejich studijní výsledky). Čím těsnější je spojení mezi těmito rysy, tím přesnější jsou učiněná rozhodnutí.

Existují dva typy závislostí mezi jevy a jejich charakteristikami:

    funkční (deterministická, kauzální) závislost . Zadává se ve formě vzorce, který přesně odpovídá každé hodnotě jedné proměnné konkrétní hodnotu další proměnná (zanedbává se vliv náhodných faktorů). jinými slovy, funkční závislost je vztah, ve kterém každé hodnotě nezávisle proměnné x odpovídá přesně definovaná hodnota závislé proměnné y. V ekonomii jsou funkční vztahy mezi proměnnými výjimkou z obecného pravidla;

    statistická (stochastická, nedeterministická) závislost – jedná se o spojení proměnných, které je ovlivněno náhodnými faktory, tzn. Jedná se o vztah, ve kterém každá hodnota nezávisle proměnné x odpovídá množině hodnot závislé proměnné y a není předem známo, jakou hodnotu y nabude.

Speciálním případem statistické závislosti je korelační závislost.

Korelační závislost je vztah, ve kterém každá hodnota nezávisle proměnné x odpovídá určitému matematickému očekávání (průměrné hodnotě) závislé proměnné y.

Korelační závislost je „neúplná“ závislost, která se neobjevuje v každém jednotlivém případě, ale pouze v průměrných hodnotách s dostatečným velký počet případy. Je například známo, že zvyšování kvalifikace zaměstnance vede ke zvýšení produktivity práce. Toto tvrzení se v praxi často potvrzuje, ale neznamená, že dva nebo více pracovníků stejné kategorie/úrovně zapojených do podobného procesu bude mít stejnou produktivitu práce.

Korelační závislost je studována pomocí metod korelační a regresní analýzy.

Korelační a regresní analýza umožňuje stanovit blízkost, směr spojení a formu tohoto spojení mezi proměnnými, tzn. jeho analytické vyjádření.

Hlavní úkol korelační analýzy spočívá v kvantitativním stanovení těsnosti souvislosti mezi dvěma charakteristikami v párovém spojení a mezi efektivními a vícefaktorovými charakteristikami v multifaktoriálním spojení a statistickém posouzení spolehlivosti vytvořeného spojení.

2. Definice regrese a její typy. Regresní analýza je hlavním matematickým a statistickým nástrojem ekonometrie. Regrese Je zvykem nazývat závislost průměrné hodnoty veličiny (y) na nějaké jiné veličině nebo na několika veličinách (x i).

V závislosti na počtu faktorů zahrnutých v regresní rovnici je zvykem rozlišovat jednoduchou (párovou) a vícenásobnou regresi.

Jednoduchá (párová) regrese je model, kde je průměrná hodnota závislé (vysvětlené) proměnné y uvažována jako funkce jedné nezávislé (vysvětlující) proměnné x. Implicitně je párová regrese modelem formuláře:

Výslovně:

,

kde aab jsou odhady regresních koeficientů.

Vícenásobná regrese je model, kde je průměrná hodnota závislé (vysvětlené) proměnné y uvažována jako funkce několika nezávislých (vysvětlujících) proměnných x 1, x 2, ... x n. Implicitně je párová regrese modelem formuláře:

.

Výslovně:

kde a a b 1, b 2, b n jsou odhady regresních koeficientů.

Příkladem takového modelu je závislost mzdy zaměstnance v závislosti na jeho věku, vzdělání, kvalifikaci, odpracované době, oboru atd.

Pokud jde o formu závislosti, existují:

      lineární regrese;

      nelineární regrese, která předpokládá existenci nelineárních vztahů mezi faktory vyjádřenými příslušnou nelineární funkcí. Často nelineární v vzhled

modely lze redukovat na lineární formu, což umožňuje jejich klasifikaci jako lineární. 3. Vlastnosti specifikace modelu. Důvody existence náhodné veličiny. Každá ekonometrická studie začíná , tj. z formulace typu modelu, založeného na odpovídající teorii vztahů mezi proměnnými.

Nejprve je nutné z celé škály faktorů ovlivňujících efektivní atribut identifikovat ty nejvýrazněji ovlivňující faktory. Párová regrese je dostatečná, pokud existuje dominantní faktor, který se používá jako vysvětlující proměnná. Jednoduchá regresní rovnice charakterizuje vztah mezi dvěma proměnnými, který se jako určitý vzorec projevuje pouze v průměru za souhrn pozorování. V regresní rovnici je korelační vztah znázorněn ve formě funkční závislosti, vyjádřené odpovídající matematickou funkcí. Téměř v každém jednotlivém případě se hodnota y skládá ze dvou členů:

,

kde y je skutečná hodnota výsledné charakteristiky;

– teoretická hodnota výsledné charakteristiky zjištěná na základě regresní rovnice;

náhodná veličina, charakterizující odchylku skutečné hodnoty výsledné charakteristiky od teoretické zjištěné pomocí regresní rovnice.

Náhodná proměnná také nazývané rušení. Zahrnuje vliv faktorů nezohledněných v modelu, náhodné chyby a vlastnosti měření. Přítomnost náhodné proměnné v modelu je generována třemi zdroji:

    specifikace modelu,

    selektivní povaha zdrojových dat,

    vlastnosti měřicích proměnných.

Chyby specifikace budou zahrnovat nejen nesprávnou volbu konkrétní matematické funkce, ale také podcenění jakéhokoli významného faktoru v regresní rovnici (použití párové regrese místo násobku).

Spolu se specifikačními chybami se mohou vyskytnout i výběrové chyby, protože výzkumník se při stanovení vzorců vztahů mezi charakteristikami nejčastěji zabývá vzorovými daty. K chybám ve výběru dochází také kvůli heterogenitě dat v původní statistické populaci, k čemuž obvykle dochází při studiu ekonomických procesů. Pokud je populace heterogenní, pak regresní rovnice nemá praktický význam. Pro získání dobrého výsledku jsou jednotky s anomálními hodnotami studovaných charakteristik obvykle z populace vyloučeny. Regresní výsledky opět představují charakteristiky vzorku. Zdrojová data

Však největší nebezpečí v praktickém použití regresních metod představují chyby měření. Pokud lze chyby specifikace snížit změnou formy modelu (typu matematického vzorce) a chyby vzorkování lze snížit zvýšením objemu počátečních dat, pak chyby měření prakticky anulují veškeré snahy o kvantifikace spojení mezi funkcemi.

4. Metody výběru párové regrese. Za předpokladu, že chyby měření jsou minimalizovány, je zaměření ekonometrického výzkumu na chyby specifikace modelu. V párové regresi výběr typu matematické funkce
lze provést třemi způsoby:

    grafický;

    analytické, tj. na základě teorie studovaného vztahu;

    experimentální.

Při studiu vztahu dvou charakteristik grafická metoda výběr typu regresní rovnice je celkem jasný. Vychází z korelačního pole. Základní typy křivek používaných při kvantifikaci vztahů




Třída matematické funkce k popisu vztahu mezi dvěma proměnnými se používají i jiné typy křivek.

Analytická metoda volba typu regresní rovnice je založena na studiu materiálové podstaty vazby zkoumaných charakteristik a také na vizuálním posouzení povahy vazby. Tito. pokud mluvíme o Lafferově křivce, ukazující vztah mezi daňovou progresivitou a rozpočtovými příjmy, pak mluvíme o parabolické křivce a v mikroanalýze jsou izokvanty hyperboly.

5. Metoda nejmenších čtverců. Lineární regrese nalézá široké uplatnění v ekonometrii s ohledem na jasnou ekonomickou interpretaci jejích parametrů a dochází k nalezení rovnice ve tvaru:

,

kde x je vysvětlující (nezávislá) proměnná – nenáhodná hodnota;

y – vysvětlená (závislá) veličina;

– náhodný člen (regresní chyba);

 a β jsou parametry rovnice.

Teoretické hodnoty představují regresní přímku. Konstrukce lineární regrese spočívá v odhadu parametrů aab rovnice
.

Odhady parametrů lineární regrese lze nalézt různými způsoby.

Metoda nejmenších čtverců (LSM) – klasický přístup k odhadu parametrů lineární regrese.

Vraťme se ke korelačnímu poli.

Z grafu můžete určit hodnoty parametrů. Parametr a je průsečík regresní přímky s osou Oy a parametr b se odhaduje na základě sklonu regresní přímky. , kde dy je přírůstek faktoru y a dx je přírůstek faktoru x.

Metoda nejmenších čtverců nám umožňuje získat takové odhady parametrů a a b, pro které je součet čtverců odchylek skutečných hodnot výsledné charakteristiky y od vypočtených (teoretických) hodnot minimální:

Tito. Regresní přímka je zvolena tak, aby součet druhých mocnin vertikálních vzdáleností mezi body a touto přímkou ​​byl minimální.

Kde
.

Vypočítejme parciální derivace pro každý z parametrů a a b.

Vydělme obě strany rovnic n a dostaneme soustavu rovnic, ze které lze vypočítat oba parametry.

Z metody nejmenších čtverců můžete získat dva další vzorce pro nalezení parametru b:

1.

2.
nebo

Parametr a se ve všech případech odhaduje stejným způsobem:

.

Parametr b se nazývá regresní koeficient a ukazuje, o kolik jednotek se průměrně změní proměnná y, když se proměnná x zvýší o 1 jednotku. Znaménko regresního koeficientu ukazuje směr vztahu: při b< 0 – связь обратная, при b >0 – přímé spojení.

Parametr a formálně představuje hodnotu y při x = 0. Pokud x nemá nebo nemůže mít nulová hodnota, pak a nedává smysl. Nemusí to dávat ekonomický smysl. Když a<0 экономическая интерпретация может оказаться абсурдной.

Můžete interpretovat znaménko pro parametr a. Je-li a>0, pak k relativní změně výsledku dochází pomaleji než ke změně faktoru. Pokud a<0, то изменение результата опережает изменение фактора.

6. Indikátory pro měření těsnosti a pevnosti spoje. Regresní rovnice je vždy doplněna o indikátor těsnosti souvislosti.

Kvalita párové regrese se určuje pomocí párového lineárního korelačního koeficientu:

nebo

,

Kde
,

– směrodatné odchylky, které ukazují rozptyl hodnot v množině hodnot x a y. Velká hodnota směrodatné odchylky ukazuje velký rozptyl hodnot v prezentovaném souboru s průměrnou hodnotou souboru; malá hodnota tedy ukazuje, že hodnoty v sadě jsou seskupeny kolem průměrné hodnoty.

Lineární korelační koeficient je v rozmezí:

1 < < 1.

Pokud je korelační koeficient kladný (obr. a), pak je vztah mezi charakteristikami přímý, tzn. s nárůstem (poklesem) v x se znak y zvětší (sníží). Pokud je korelační koeficient záporný (obr. b), pak je vztah mezi charakteristikami inverzní, tzn. s nárůstem (snížením) v x se znak y zmenšuje (zvyšuje).

Čím více se hodnota korelačního koeficientu blíží 1, tím je souvislost bližší (obr. b), čím blíže 0, tím je slabší (obr. a).

Pokud 0< || <0,3, то связь между признаками практически отсутствует,

pokud 0,3< || <0,5, то связь слабая,

pokud 0,5< || <0,7, то связь умеренная,

pokud 0,7< || <1, то связь сильная.

A konečně, při r = 0 neexistuje žádná lineární korelace. V tomto případě je regresní přímka rovnoběžná s osou Ox.

Je třeba poznamenat, že hodnota koeficientu lineární korelace posuzuje blízkost vztahu mezi uvažovanými charakteristikami v její lineární podobě. Blízkost absolutní hodnoty korelačního koeficientu k nule tedy neznamená, že mezi charakteristikami neexistuje souvislost. S jinou specifikací modelu se může ukázat, že vztah mezi rysy je docela úzký.

Pro posouzení kvality proložení lineární funkce se vypočítá druhá mocnina lineárního korelačního koeficientu R 2 , volal koeficient determinace . Charakterizuje podíl rozptylu efektivní charakteristiky y, vysvětlené regresí, na celkovém rozptylu efektivního atributu.

Podle toho hodnota 1 – R 2 charakterizuje podíl rozptylu y způsobeného vlivem dalších faktorů nezohledněných v modelu.

Na základě své definice R 2 nabývá hodnot mezi 0 a 1, tzn.

0 ≤ R 2 ≤ 1.

Li R 2 = 0, pak to znamená, že regrese nic nedává, tj. x nezlepší kvalitu predikce y ve srovnání s triviální predikcí
.

Další extrémní varianta R 2 = 1 znamená přesné přizpůsobení modelu: všechny pozorovací body leží na regresní přímce (vše =0). Čím blíž R 2 na 1, tím lepší je kvalita lícování modelu a tím přesnější .

Přestože regresní parametr b ukazuje, o kolik jednotek se v průměru změní proměnná y, když se proměnná x zvýší o 1 jednotku, nelze jej použít k přímému posouzení vlivu faktorové charakteristiky na výslednou z důvodu rozdílu v jednotkách měření sledovaných ukazatelů. Pro tyto účely používají koeficient pružnosti . Koeficient pružnosti ukazuje, o kolik procent se změní efektivní charakteristika y, když se faktorová charakteristika x změní o 1 %, a vypočítá se podle vzorce:

,

Kde
– první derivace, charakterizující poměr nárůstů ve výsledku a faktoru pro odpovídající formu komunikace.

Vzhledem k tomu, že koeficient pružnosti pro lineární funkci není konstantní hodnotou, ale závisí na odpovídající hodnotě x, průměrný koeficient pružnosti se obvykle počítá:

.

Navzdory rozšířenému používání koeficientů elasticity v ekonometrii mohou nastat případy, kdy jejich výpočet nedává ekonomický smysl. K tomu dochází, když pro uvažované charakteristiky nemá smysl určovat změnu hodnot v procentech (například o kolik procent se změní výnos pšenice, pokud se kvalita půdy zlepší o 1 %).

Koeficienty pružnosti pro řadu matematických funkcí

7. Odhady statistické významnosti. Po nalezení regresní rovnice je posouzena významnost rovnice jako celku i jejích jednotlivých parametrů.

Posouzení významu rovnice jako celku. Posouzení významnosti regresní rovnice jako celku je dáno pomocí Fisherova F testu a slouží ke zjištění, že výsledná hodnota koeficientu determinace
není to náhoda, tzn. zda matematický model vyjadřující vztah mezi proměnnými odpovídá experimentálním datům a zda vysvětlující proměnné zahrnuté v rovnici (jedna nebo více) jsou dostatečné pro popis závislé proměnné.

V párové lineární regresi je testování hypotéz o významnosti regresních a korelačních koeficientů ekvivalentní testování hypotézy o významnosti rovnice lineární regrese.

K testování významnosti regresní rovnice jako celku se používá Fisherův F test. V případě párové lineární regrese se význam regresního modelu testuje pomocí následujícího vzorce:

,

kde m je počet charakteristik vysvětlujícího faktoru, tzn. X.

Zjištěné hodnoty jsou porovnány s tabulkovými.

,

kde α je hladina významnosti odpovídající intervalu spolehlivosti;

Pokud na dané hladině významnosti F obs > F crit, pak je model považován za významný, hypotéza o náhodné povaze odhadovaných charakteristik je zamítnuta a je uznána jejich statistická významnost a spolehlivost.

Pokud F obs.

Směrodatná chyba odhadu regresní rovnice. Ačkoli nám OLS poskytuje regresní přímku, která poskytuje minimální variaci, ne všechna pozorování odpovídají regresní přímce. Proto je potřeba statistické měření variace skutečných hodnot y od předpokládaných hodnot . Volá se míra variace vzhledem k regresní přímce standardní chyba odhadu .

Standardní chyba odhadu je definována jako:

,

kde y jsou skutečné hodnoty závislé proměnné pro dané hodnoty nezávislé proměnné;

– teoretické/predikované hodnoty závislé proměnné pro dané hodnoty nezávisle proměnné;

m – počet vysvětlujících proměnných x.

Tento koeficient charakterizuje míru variace skutečných dat kolem regresní přímky.

Kontrola významnosti parametrů. Kromě toho se kontroluje významnost regresních parametrů. Testování významnosti parametrů jednotlivých regresních koeficientů se provádí pomocí Studentova t-testu testováním hypotézy, že každý regresní koeficient je roven nule. Zároveň zjišťují, zda získané hodnoty parametrů jsou výsledkem působení náhodných veličin.

Významnost regresních koeficientů se kontroluje pomocí následujících vzorců. Pro koeficient b:

,

kde Sb je standardní chyba koeficientu b, který je zase definován jako:

.

Pro koeficient a podobně:

,

kde S a je směrodatná chyba volného členu a, také nalezeného vzorcem:

.

Vypočtené hodnoty t-testu jsou porovnány s tabulkovou hodnotou kritéria , kde k = n–m–1 stupňů volnosti a odpovídající hladina významnosti α.

Pokud vypočtená hodnota t-testu překročí jeho tabulkovou hodnotu, pak je parametr považován za významný, tzn. nenajde se náhodou.

8. Predikovaná hodnota proměnné y a intervaly spolehlivosti prognózy. Bodová předpověď spočívá v získání předpovědní hodnoty Y*, která se určí dosazením do regresní rovnice
odpovídající předpokládaná hodnota X*:

.

Pravděpodobnost realizace bodové prognózy je prakticky nulová, takže interval spolehlivosti prognózy je počítán s větší spolehlivostí.

Intervalová předpověď spočívá v konstrukci intervalu spolehlivosti prognózy, tzn. dolní a horní – minimální a maximální možné hranice intervalu obsahující přesnou hodnotu pro predikovanou hodnotu Y* s danou pravděpodobností, tj.:

У min

Intervaly spolehlivosti prognózy se určují pomocí následujících vzorců:

Kde
– standardní chyba predikcí pro párovou regresi.

Interval spolehlivosti pro regresní koeficienty je definován jako:

Vzhledem k tomu, že regresní koeficient v ekonometrických studiích má jasnou ekonomickou interpretaci, meze spolehlivosti intervalu pro regresní koeficient by neměly obsahovat protichůdné výsledky, například -10b40 – tento druh zadání naznačuje, že skutečná hodnota regresní koeficient současně obsahuje kladné a záporné hodnoty a dokonce i nulu, což nemůže být. Pak je parametr považován za rovný nule.

Testování významnosti modelu pomocí testu poměru pravděpodobnosti (Waldův test) začíná předložením hlavní hypotézy:

Pro ověření této hypotézy se vypočítává statistika vzorku

Zde lnL je hodnota maximální hodnoty logaritmu věrohodnostní funkce a lnL0 je hodnota logaritmu věrohodnostní funkce v případě platnosti hlavní hypotézy.

Pokud je hlavní hypotéza pravdivá, pak jsou výběrové statistiky (4.7.1) rozděleny podle zákona 2 s (m-1) stupni volnosti. Hranice pravostranné kritické oblasti K2 se hledá pomocí tabulek chí-kvadrát kritických bodů podle hladiny významnosti (1-b) a (m-1) stupňů volnosti. Pokud platí nerovnost:

pak se zamítne hlavní hypotéza, přijme se alternativní hypotéza a řekneme: že model je statisticky významný. V opačném případě přijmou hypotézu, že model není významný, a přistoupí k jeho revizi.

U modelů binární volby je významnost faktorů kontrolována testováním pro každý faktor хi, i=1,…, (m-1) hypotéz tvaru:

Vzorové statistiky, které se používají k testování těchto hypotéz, mají asymptoticky normální rozdělení a nazývají se z-statistiky. Hranice oboustranné kritické oblasti se hledá pomocí Laplaceových tabulek na dané hladině významnosti (1-b).

Pokud platí nerovnost:

K 1

pak přijmou hlavní hypotézu o nevýznamném rozdílu od nuly koeficientu i a dojdou k závěru, že odpovídající faktor je pro model nevýznamný.

Pro modely binární volby není pojem koeficient determinace definován. Je jim však stanoven tzv. pseudokoeficient determinace, který již necharakterizuje vypovídací schopnost modelu

Definice 4.7.1. Pseudokoeficient determinace je následující hodnota:

Definice 4.7.2. McFaddenův index pravděpodobnosti je charakteristika:

Je třeba zdůraznit, že pokud se parametry modelu binární volby výrazně neliší od nuly, pak jsou oba zavedené koeficienty rovny nule.

V přednášce jsme se podívali na nelineární regresní modely, konkrétně na modely pro binární závisle proměnnou. Tyto modely jsme zkoumali pro dvě regresní funkce: logit (použili jsme logistickou funkci) a probit (použili jsme distribuční funkci standardního zákona o normálním rozdělení). Odhady parametrů pro takové regresní funkce se získávají pomocí metody maximální věrohodnosti. Model je testován pomocí Waldova testu, který je založen na statistice, která má chí-kvadrát rozdělení. Při studiu vícerozměrných regresních modelů jsme odhady parametrů v j interpretovali jako okrajový vliv nezávislých proměnných na y. Vraťme se k modelům binární volby. Pokud se pokusíme najít derivaci P(Y=1|X), dojdeme k následujícímu výrazu:

kde Z= 0+1x1+...m-1xm-1.

Větou o derivaci komplexní funkce a z vlastnosti hustoty (derivace distribuční funkce je distribuční hustota f(Z)) získáme:

nebo pomocí druhé notace pro odhady parametrů:

P(Y=1|X)=Vjf(Z)

Stejně jako dříve, bj označuje odhady neznámých parametrů.

Pak můžeme uvažovat následovně: hustota distribuce je vždy nezáporná, tedy znaménko derivace

bude záviset pouze na znaménku odhadů parametrů, ale bude funkcí všech nezávislých proměnných. Navíc, pokud je odhad parametru kladný, pak zvýšení proměnné xj povede ke zvýšení pravděpodobnosti

a pokud je odhad parametru záporný, pak se indikovaná pravděpodobnost sníží.

Komentář. Je-li faktor x binární proměnná, pak pro něj nelze zavést koncept mezního efektu.

Pro každou proměnnou x (kvantitativní!!!) je zaveden tzv. průměrný mezní efekt. Za tímto účelem vypočítejte průměry vzorku pro kvantitativní proměnné a procento „1“ pro binární a dosaďte je do výrazu pro hustotu distribuce místo proměnných.

Další otázka do diskuze: jak předpovědět hodnotu y po odhadu parametrů logitového (probitového) modelu? Postupujte například následovně. Dosaďte nalezené hodnoty odhadů parametrů a hodnoty xj do Z a vypočítejte hodnotu proměnné. Je-li Z>0, pak uvažujme, že Y=1, je-li Z<0, то считают, что У=0. Замечание. Мы рассмотрели ситуацию, когда переменная у была измерена в номинальной шкале, но принимала всего два значения: 0 и 1. В общем случае, когда у может принимать несколько значений, например 0, 1, 2, 3, используют множественный (по у!!) логит или пробит. Кроме того, у может быть измерен в порядковой шкале, тогда в Стате используют порядковый логит (пробит) ologit (oprobit).

Komentář. Velmi často je ve výzkumu nutné provádět studie na zkráceném vzorku. Pokud jsou například studovány příjmy domácností, existují situace, kdy by respondenti s velmi vysokými příjmy (například více než 1 milion rublů) měli být ze studie vyloučeni, tj.

V takových případech se používají modely Tobit.

F(0+1x1+...m-1xm-1)

F(0+1x1+...m-1xm-1)

F(0+1x1+...m-1xm-1)

F(0+1x1+...m-1xm-1) - (F(0+1x1+...m-1xm-1))2

Cvičení. Pro území kraje jsou uvedeny údaje pro 199X;
Číslo regionu Průměrná životní mzda na osobu a den jedné práceschopné osoby, rub., X Průměrná denní mzda, rub., na
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173
Požadovaný:
1. Sestavte lineární rovnici pro párovou regresi y z x.
2. Vypočítejte lineární párový korelační koeficient a průměrnou chybu aproximace.
3. Posuďte statistickou významnost regresních a korelačních parametrů.
4. Proveďte mzdovou předpověď y s předpokládanou hodnotou průměrného životního minima na obyvatele x ve výši 107 % průměrné úrovně.
5. Posuďte přesnost předpovědi výpočtem chyby předpovědi a jejího intervalu spolehlivosti.

Řešení najít pomocí kalkulačky.
Pomocí grafické metody .
Tato metoda slouží k vizuálnímu znázornění formy souvislosti mezi studovanými ekonomickými ukazateli. K tomu se nakreslí graf v pravoúhlém souřadnicovém systému, jednotlivé hodnoty výsledné charakteristiky Y se vynesou podél osy pořadnic a jednotlivé hodnoty faktorové charakteristiky X se vynesou podél osy x.
Zavolá se množina bodů výsledné a faktorové charakteristiky korelační pole.
Na základě korelačního pole můžeme předpokládat (pro populaci), že vztah mezi všemi možnými hodnotami X a Y je lineární.
Rovnice lineární regrese je y = bx + a + ε
Zde ε je náhodná chyba (odchylka, porucha).
Důvody existence náhodné chyby:
1. Neschopnost zahrnout významné vysvětlující proměnné do regresního modelu;
2. Agregace proměnných. Například funkce celkové spotřeby je pokusem obecně vyjádřit souhrn jednotlivých rozhodnutí o výdajích. Jedná se pouze o přiblížení jednotlivých vztahů, které mají různé parametry.
3. Nesprávný popis struktury modelu;
4. Nesprávná funkční specifikace;
5. Chyby měření.
Protože odchylky ε i pro každé konkrétní pozorování i jsou náhodné a jejich hodnoty ve vzorku neznámé, pak:
1) z pozorování x i a y i lze získat pouze odhady parametrů α a β
2) Odhady parametrů α a β regresního modelu jsou hodnoty a a b, které jsou náhodné povahy, protože odpovídat náhodnému vzorku;
Potom bude mít odhadovací regresní rovnice (sestavená z dat vzorku) tvar y = bx + a + ε, kde e i jsou pozorované hodnoty (odhady) chyb ε i a a a b jsou odhady parametry α a β regresního modelu, které by měly být nalezeny.
Pro odhad parametrů α a β se používá metoda nejmenších čtverců (metoda nejmenších čtverců).
Systém normálních rovnic.
Pro naše data má soustava rovnic tvar
Z první rovnice vyjádříme a a dosadíme do druhé rovnice
Dostaneme b = 0,92, a = 76,98
Regresní rovnice:
y = 0,92 x + 76,98

1. Parametry regresní rovnice.
Vzorové prostředky.



Vzorové odchylky:


Směrodatná odchylka


Korelační koeficient
Vypočítáme ukazatel blízkosti spojení. Tento indikátor je vzorový lineární korelační koeficient, který se vypočítá podle vzorce:

Lineární korelační koeficient nabývá hodnot od –1 do +1.
Spojení mezi charakteristikami může být slabé a silné (těsné). Jejich kritéria jsou hodnocena podle Chaddockovy stupnice:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
V našem příkladu je souvislost mezi průměrnou denní mzdou a průměrnou životní mzdou na hlavu vysoká a přímá.
1.2. Regresní rovnice(odhad regresní rovnice).

Rovnice lineární regrese je y = 0,92 x + 76,98
Koeficientům lineární regresní rovnice lze přiřadit ekonomický význam.
Koeficient b = 0,92 vyjadřuje průměrnou změnu efektivního ukazatele (v měrných jednotkách y) se zvýšením nebo snížením hodnoty faktoru x na jednotku jeho měření. V tomto příkladu se zvýšením o 1 rub. na obyvatele a den se průměrná denní mzda zvyšuje v průměru o 0,92.
Koeficient a = 76,98 formálně ukazuje predikovanou úroveň průměrné denní mzdy, ale pouze pokud se x=0 blíží hodnotám vzorku.
Dosazením příslušných hodnot x do regresní rovnice můžeme určit zarovnané (predikované) hodnoty ukazatele výkonu y(x) pro každé pozorování.
Vztah mezi průměrnou denní mzdou a průměrem životního minima na obyvatele na den je určen znaménkem regresního koeficientu b (je-li > 0 - přímá závislost, jinak - inverzní). V našem příkladu je spojení přímé.
Koeficient pružnosti.
Není vhodné používat regresní koeficienty (v příkladu b) k přímému posouzení vlivu faktorů na výslednou charakteristiku, pokud existuje rozdíl v jednotkách měření výsledného ukazatele y a faktorové charakteristiky x.
Pro tyto účely se počítají koeficienty pružnosti a koeficienty beta. Koeficient pružnosti se zjistí podle vzorce:


Ukazuje, o jaké procento se v průměru změní efektivní atribut y, když se faktor faktoru x změní o 1 %. Nezohledňuje míru kolísání faktorů.
Koeficient elasticity je menší než 1. Pokud se tedy průměrné životní náklady na obyvatele za den změní o 1 %, průměrná denní mzda se změní o méně než 1 %. Jinými slovy, vliv průměrného životního minima na obyvatele X na průměrnou denní mzdu Y není významný.
Beta koeficient ukazuje, o jakou část hodnoty své směrodatné odchylky se změní průměrná hodnota výsledné charakteristiky, když se faktorová charakteristika změní o hodnotu své směrodatné odchylky s hodnotou zbývajících nezávislých proměnných fixovaných na konstantní úrovni:

Tito. zvýšení x o směrodatnou odchylku tohoto ukazatele povede ke zvýšení průměrné denní mzdy Y o 0,721 směrodatné odchylky tohoto ukazatele.
1.4. Chyba aproximace.
Vyhodnoťme kvalitu regresní rovnice pomocí chyby absolutní aproximace.


Protože chyba je menší než 15 %, lze tuto rovnici použít jako regresi.
Koeficient determinace.
Druhá mocnina (vícenásobného) korelačního koeficientu se nazývá koeficient determinace, který ukazuje podíl variace ve výsledném atributu vysvětlený variací v atributu faktoru.
Nejčastěji se při interpretaci koeficientu determinace vyjadřuje v procentech.
R2 = 0,722 = 0,5199
těch. v 51,99 % případů vedou změny průměrného životního minima na obyvatele x ke změně průměrné denní mzdy y. Jinými slovy, přesnost výběru regresní rovnice je průměrná. Zbývajících 48,01 % změny průměrné denní mzdy Y je vysvětleno faktory, které model nezohlednil.

x y x 2 y 2 x o y y(x) (y i -y cp) 2 (y-y(x)) 2 (x i-x cp) 2 |y - y x |:y
78 133 6084 17689 10374 148,77 517,56 248,7 57,51 0,1186
82 148 6724 21904 12136 152,45 60,06 19,82 12,84 0,0301
87 134 7569 17956 11658 157,05 473,06 531,48 2,01 0,172
79 154 6241 23716 12166 149,69 3,06 18,57 43,34 0,028
89 162 7921 26244 14418 158,89 39,06 9,64 11,67 0,0192
106 195 11236 38025 20670 174,54 1540,56 418,52 416,84 0,1049
67 139 4489 19321 9313 138,65 280,56 0,1258 345,34 0,0026
88 158 7744 24964 13904 157,97 5,06 0,0007 5,84 0,0002
73 152 5329 23104 11096 144,17 14,06 61,34 158,34 0,0515
87 162 7569 26244 14094 157,05 39,06 24,46 2,01 0,0305
76 159 5776 25281 12084 146,93 10,56 145,7 91,84 0,0759
115 173 13225 29929 19895 182,83 297,56 96,55 865,34 0,0568
1027 1869 89907 294377 161808 1869 3280,25 1574,92 2012,92 0,6902

2. Odhad parametrů regresní rovnice.
2.1. Význam korelačního koeficientu.

Pomocí Studentovy tabulky s hladinou významnosti α=0,05 a stupni volnosti k=10 zjistíme t krit:
t krit = (10;0,05) = 1,812
kde m = 1 je počet vysvětlujících proměnných.
Pokud je pozorováno t > t kritické, pak je výsledná hodnota korelačního koeficientu považována za významnou (nulová hypotéza, že korelační koeficient je roven nule, je zamítnuta).
Protože t obs > t crit, odmítáme hypotézu, že korelační koeficient je roven 0. Jinými slovy, korelační koeficient je statisticky významný.
V párové lineární regresi t 2 r = t 2 b a následné testování hypotéz o významnosti regresních a korelačních koeficientů je ekvivalentní testování hypotézy o významnosti rovnice lineární regrese.

2.3. Analýza přesnosti stanovení odhadů regresních koeficientů.
Nezaujatý odhad rozptylu poruch je hodnota:


S 2 y = 157,4922 - nevysvětlený rozptyl (míra šíření závislé proměnné kolem regresní přímky).

12,5496 - standardní chyba odhadu (standardní chyba regrese).
S a - směrodatná odchylka náhodné veličiny a.


S b - směrodatná odchylka náhodné veličiny b.


2.4. Intervaly spolehlivosti pro závisle proměnnou.
Ekonomické prognózování založené na konstruovaném modelu předpokládá, že již existující vztahy mezi proměnnými jsou zachovány po dobu trvání.
Pro predikci závislé proměnné výsledného atributu je nutné znát predikované hodnoty všech faktorů zahrnutých v modelu.
Do modelu se dosadí predikované hodnoty faktorů a získají se prediktivní bodové odhady studovaného ukazatele.
(a + bx p ± ε)
Kde

Vypočítejme hranice intervalu, ve kterém bude soustředěno 95 % možných hodnot Y s neomezeným počtem pozorování a X p = 94

(76,98 + 0,92*94 ± 7,8288)
(155.67;171.33)
S pravděpodobností 95 % je možné zaručit, že hodnota Y pro neomezený počet pozorování nebude mimo hranice nalezených intervalů.
2.5. Testování hypotéz týkajících se koeficientů lineární regresní rovnice.
1) t-statistika. Studentův t test.
Ověřme hypotézu H 0 o rovnosti jednotlivých regresních koeficientů na nulu (pokud se alternativa nerovná H 1) na hladině významnosti α=0,05.
t krit = (10;0,05) = 1,812


Protože 3,2906 > 1,812 je potvrzena statistická významnost regresního koeficientu b (zamítáme hypotézu, že tento koeficient je roven nule).


Od 3,1793 > 1,812 je potvrzena statistická významnost regresního koeficientu a (zamítáme hypotézu, že tento koeficient je roven nule).
Interval spolehlivosti pro koeficienty regresní rovnice.
Stanovme intervaly spolehlivosti regresních koeficientů, které budou se spolehlivostí 95 % následující:
(b - t crit S b ; b + t crit S b)
(0.9204 - 1.812 0.2797; 0.9204 + 1.812 0.2797)
(0.4136;1.4273)

(a - t lang=SV>a)
(76.9765 - 1.812 24.2116; 76.9765 + 1.812 24.2116)
(33.1051;120.8478)
S pravděpodobností 95 % lze konstatovat, že hodnota tohoto parametru bude ležet v nalezeném intervalu.
2) F-statistika. Fisherovo kritérium.
Testování významnosti regresního modelu se provádí pomocí Fisherova F testu, jehož vypočtená hodnota se zjistí jako poměr rozptylu původní řady pozorování studovaného indikátoru a nezkresleného odhadu rozptylu zbytkové sekvence. pro tento model.
Pokud je vypočtená hodnota s k1=(m) a k2=(n-m-1) stupni volnosti větší než tabulková hodnota na dané hladině významnosti, pak je model považován za významný.

kde m je počet faktorů v modelu.
Statistická významnost párové lineární regrese se hodnotí pomocí následujícího algoritmu:
1. Je předložena nulová hypotéza, že rovnice jako celek je statisticky nevýznamná: H 0: R 2 =0 na hladině významnosti α.
2. Dále určete skutečnou hodnotu F-kritéria:


kde m=1 pro párovou regresi.
3. Tabulková hodnota je určena z Fisherových distribučních tabulek pro danou hladinu významnosti s přihlédnutím k tomu, že počet stupňů volnosti pro celkový součet čtverců (větší rozptyl) je 1 a počet stupňů volnosti pro zbytkový součet čtverců (menší rozptyl) v lineární regresi je n-2.
4. Pokud je skutečná hodnota F-testu menší než tabulková hodnota, pak říkají, že není důvod zamítat nulovou hypotézu.
V opačném případě je nulová hypotéza zamítnuta a alternativní hypotéza o statistické významnosti rovnice jako celku je přijata s pravděpodobností (1-α).
Tabulková hodnota kritéria se stupni volnosti k1=1 ak2=10, Fkp = 4,96
Protože skutečná hodnota F > Fkp je koeficient determinace statisticky významný (Zjištěný odhad regresní rovnice je statisticky spolehlivý).




Nahoru