7.2. Dijagnostika ocijenjenog modela linearne regresije
Nakon ocjene modela linearne regresije, pristupa se procjeni validnosti tog modela. Čest je slučaj u praksi da se linearna regresija primjenjuje na vremenske serije i sa tog aspekta postoji niz pretpostavki koje regresioni model treba da ispuni da bi se okarakterisao kao validan. Te pretpostavke se najčešće testiraju kroz:
testiranje normalnosti;
testiranje autokorelacije;
testiranje heteroskedastičnosti;
testiranje multikolinearnosti.
U procesu testiranja normalnosti, isti principi i logika koji se primijenjeni u sekciji testiranja hipoteza, primjenjuju se i za validaciju regresionog modela. Ustanovljena praksa je da se normalnost testira samo na rezidualima ocijenjenog modela, tako da pomenuti testovi normalnosti mogu biti primijenjeni i u ovu svrhu.
Jedan od najčešće primjenjivanih i predlaganih testova za testiranje autokorelacije linearnih modela jeste Durbin-Watsonov test. Test statistika data je kao:
gdje predstavlja reziduale ocijenjenog modela linearne regresije. Test statistika može imati vrijednosti između 0 i 4. Ukoliko je izračunata statistika blizu vrijednosti 2, tada se zaključuje da problem autokorelacije ne postoji u ocijenjenom modelu. Granice test statistike za koje se problem autokorelacije identifikuje u praksi su različite, ali grubo pravilo je da vrijednosti manje od 1 i veće od 3 predstavljaju indikatore problema pozitivne odnosno negativne korelacije reziduala.
Heteroskedastičnost linearnih modela podrazumijeva testiranje konstantnosti varijanse modela. Pojednostavljeno, heteroskedastičnost testira da li postoji statistički značajna promjena varijabiliteta reziduala za period ocjene modela. Jedan od često korišćenih testova heteroskedastičnosti jeste Breush-Paganov test. Kao i kod testiranja autokorelacije i ovaj test počiva na određenim transformacijama i statistikama izvedenim iz reziduala ocijenjenog modela. Proces računanja test statistike prati sljedeće korake:
1) ocijeniti model linearne regresije:
2) izdvojiti reziduale regresije ocijenjene u prethodnom koraku;
3) izračunati transformisane reziduale kao:
gdje su vrijednosti reziduala, a broj opservacija regresionog modela;
4) ocijeniti regresioni model:
gdje predstavlja set nezavisnih (promjenljivih korišćenih za ocjenu modela iz koraka a, uključujući i koeficijent presjeka);
5) izračunati test statistiku sljedeće forme:
gdje predstavlja ukupnu sumu kvadrata odstupanja zavisne promjenljive od njene prosječne vrijednosti, dok predstavlja sumu kvadrata reziduala iz modela ocijenjenog u koraku 4; u suštini izraz , može biti zamijenjen sumom kvadrata ocijenjenih vrijednosti regresionog modela ( );
6) izračunata test statistika ( ) prati hi-kvadrat raspored sa stepeni slobode, gdje predstavlja broj nezavisnih promjenljivih u modelu; dodatno, nulta hipoteza testa jeste da su reziduali homoskedastični i izračunata p vrijednost se poredi sa unaprijed određenim nivoom značajnosti kao što je primjenjivano i u sekciji testiranja hipoteza.
Posljednja pretpostavka modela linearne regresije jeste pretpostavka odsutnosti multikolinearnosti, tj. zavisnosti između nezavisnih promjenljivih. Kao standardno prihvatljiv test multikolinearnosti u praksi se izdvojio faktor porasta varijanse (VIF, engleski variance inflation factor). Proces računanja VIF statistike je sljedeći:
1) za svaku od nezavisnih promjenljivih ocijenimo regresioni model nasuprot ostatka nezavisnih promjenljivih;
2) za svaki regresioni model iz prethodnog koraka izačunamo koeficijent determinacije:
gdje predstavlja ukupnu sumu kvadrata odstupanja zavisne promjenljive od njene prosječne vrijednosti, dok predstavlja sumu kvadrata reziduala ocijenjenog modela;
3) izračunati VIF statistiku kao:
U praksi ne postoji jedinstvena vrijednost VIF statistike koja se može smatrati limitom za identifikovanje problema multikolinearnosti. Bez obzira na odsustvo koncenzusa oko granične vrijednosti, obično vrijednosti između 4 i 5 potencijalno ukazuju na problem multikolinearnosti. Ove vrijednosti odgovaraju koeficijentima determinacije između 75% I 80%.
Primjer 59: Za ocijenjeni model iz Primjera 58, ispitati pretpostavke normalnosti (primjenom Jarque-Bera testa), heteroskedastičnosti (Breush-Pagan test), autokorelacije (Durbin-Watson test) i multikolinearnosti (VIF statistika)
Posljedice neispunjenja neke od pretpostavki modela utiču na pristrasnost i/ili efikasnost ocjena koeficijenata regresionog modela. Različiti su pristupi rješavanju ovih problema u slučaju njihovog postojanja i u najvećoj mjeri zavise od cilja modeliranja zavisne promjenljive. Neke od najčešće upotrebljavanih metoda pokušaja rješavanja problema neispunjenosti pretpostavki modela linearne regresije jesu: transformacija zavisne promjenljive (npr. Box-Cox transformacije, logit ili probit), ocjena HAC standardnih grešaka (engleski heteroskedasticity and autocorrelation consistent), uvođenje zavisne promjenljive sa vremenskim zaostatkom, uvođenje nezavisnih promjenljivih sa vremenskim zaostatkom, promjena specifikacije modela, isključivanje visokokorelisanih nezavisnih promjenljivih.
Dodatno, odabir između više validnih regresionih modela vrši se uz pomoć određenih indikatora regresije. U praksi najčešće korišćeni indikatori su: koeficijent determinacije, prilagođeni koeficijent determinacije, informacioni kriterijumi (AIC – Akaike informacioni kriterijum, BIC – Bayesian informacioni kriterijum), standardna greška regresije (MSE, engleski regression mean square error), F statistika regresije.
Last updated
Was this helpful?