Primijenjena statistika
  • Priručnik primijenjene statistike u R-u
  • Predgovor
  • 1. Uvod u R
    • 1.1. R objekti
    • 1.2. Manipulacije i agregacije podataka
    • 1.3. Import i eksport podataka
    • 1.4. Korisničke funkcije
  • 2. Tipovi i nivoi mjerenja statističkih obilježja
  • 3. Deskriptivna statistika i grafičko predstavljanje podataka
    • 3.1. Mjere centralne tendencije
    • 3.2. Mjere varijabiliteta
    • 3.3. Mjere oblika rasporeda
    • 3.4. Grafičko predstavljanje podataka
  • 4. Distribucije vjerovatnoća slučajne promjenljive
    • 4.1. Binomni raspored
    • 4.2. Normalni raspored
    • 4.3. Studentov t raspored
    • 4.4. Fišerov F raspored i hi-kvadrat raspored
  • 5. Uzorak i uzoračke ocjene
  • 6. Statističko testiranje hipoteza
    • 6.1. t-test na osnovu jednog uzorka
    • 6.2. t-test na osnovu dva uzorka
    • 6.3. Test proporcija
    • 6.4. Analiza varijanse – ANOVA (klasična ANOVA i Welch ANOVA)
    • 6.5. Wilcoxonov test ranga na osnovu jednog uzorka
    • 6.6. Wilcoxonov test na osnovu dva uzorka
    • 6.7. Kruskal-Wallisov test
    • 6.8. Testovi normalnosti
      • 6.8.1. Jarque-Bera test normalnosti
      • 6.8.2. Pearsonov hi-kvadrat test normalnosti
    • 6.9. Testovi homogenosti varijanse
      • 6.9.1. F test jednakosti varijansi
      • 6.9.2. Bartlettov test homogenosti varijansi
      • 6.9.3. Fligner-Killeenov test homogenosti varijansi
  • 7. Linearna regresija
    • 7.1. Ocjena modela linearne regresije
    • 7.2. Dijagnostika ocijenjenog modela linearne regresije
  • 8. Binomna logistička regresija
  • 9. Literatura
  • Biografija
Powered by GitBook
On this page

Was this helpful?

  1. 7. Linearna regresija

7.2. Dijagnostika ocijenjenog modela linearne regresije

Nakon ocjene modela linearne regresije, pristupa se procjeni validnosti tog modela. Čest je slučaj u praksi da se linearna regresija primjenjuje na vremenske serije i sa tog aspekta postoji niz pretpostavki koje regresioni model treba da ispuni da bi se okarakterisao kao validan. Te pretpostavke se najčešće testiraju kroz:

  1. testiranje normalnosti;

  2. testiranje autokorelacije;

  3. testiranje heteroskedastičnosti;

  4. testiranje multikolinearnosti.

U procesu testiranja normalnosti, isti principi i logika koji se primijenjeni u sekciji testiranja hipoteza, primjenjuju se i za validaciju regresionog modela. Ustanovljena praksa je da se normalnost testira samo na rezidualima ocijenjenog modela, tako da pomenuti testovi normalnosti mogu biti primijenjeni i u ovu svrhu.

Jedan od najčešće primjenjivanih i predlaganih testova za testiranje autokorelacije linearnih modela jeste Durbin-Watsonov test. Test statistika data je kao:

dw=∑t=2n(εt−εt−1)2∑t=1nεt2dw = \frac{\sum_{t=2}^{n}(\varepsilon_t - \varepsilon_{t-1})^2}{\sum_{t=1}^{n}\varepsilon_t^2}dw=∑t=1n​εt2​∑t=2n​(εt​−εt−1​)2​

gdje ε\varepsilonε predstavlja reziduale ocijenjenog modela linearne regresije. Test statistika može imati vrijednosti između 0 i 4. Ukoliko je izračunata statistika blizu vrijednosti 2, tada se zaključuje da problem autokorelacije ne postoji u ocijenjenom modelu. Granice test statistike za koje se problem autokorelacije identifikuje u praksi su različite, ali grubo pravilo je da vrijednosti manje od 1 i veće od 3 predstavljaju indikatore problema pozitivne odnosno negativne korelacije reziduala.

Heteroskedastičnost linearnih modela podrazumijeva testiranje konstantnosti varijanse modela. Pojednostavljeno, heteroskedastičnost testira da li postoji statistički značajna promjena varijabiliteta reziduala za period ocjene modela. Jedan od često korišćenih testova heteroskedastičnosti jeste Breush-Paganov test. Kao i kod testiranja autokorelacije i ovaj test počiva na određenim transformacijama i statistikama izvedenim iz reziduala ocijenjenog modela. Proces računanja test statistike prati sljedeće korake:

1) ocijeniti model linearne regresije:

Y=βXY = \beta XY=βX

2) izdvojiti reziduale regresije ocijenjene u prethodnom koraku;

3) izračunati transformisane reziduale kao:

f=εi^2∑i=1nεi^2n−1f = \frac{\hat{\varepsilon_i}^2}{\frac{\sum_{i=1}^{n}\hat{\varepsilon_i}^2}{n}} - 1f=n∑i=1n​εi​^​2​εi​^​2​−1

gdje su εi\varepsilon_iεi​ vrijednosti reziduala, a nnn broj opservacija regresionog modela;

4) ocijeniti regresioni model:

f=βXf = \beta Xf=βX

gdje XXX predstavlja set nezavisnih (promjenljivih korišćenih za ocjenu modela iz koraka a, uključujući i koeficijent presjeka);

5) izračunati test statistiku sljedeće forme:

BP=12(TSS−SSR)BP = \frac{1}{2}(TSS - SSR)BP=21​(TSS−SSR)

gdje TSSTSSTSS predstavlja ukupnu sumu kvadrata odstupanja zavisne promjenljive od njene prosječne vrijednosti, dok SSRSSRSSR predstavlja sumu kvadrata reziduala iz modela ocijenjenog u koraku 4; u suštini izraz (TSS−SSR)(TSS - SSR)(TSS−SSR) , može biti zamijenjen sumom kvadrata ocijenjenih vrijednosti regresionog modela ( Y^\hat{Y}Y^ );

6) izračunata test statistika ( BPBPBP ) prati hi-kvadrat raspored sa kkk stepeni slobode, gdje kkk predstavlja broj nezavisnih promjenljivih u modelu; dodatno, nulta hipoteza testa jeste da su reziduali homoskedastični i izračunata p vrijednost se poredi sa unaprijed određenim nivoom značajnosti kao što je primjenjivano i u sekciji testiranja hipoteza.

Posljednja pretpostavka modela linearne regresije jeste pretpostavka odsutnosti multikolinearnosti, tj. zavisnosti između nezavisnih promjenljivih. Kao standardno prihvatljiv test multikolinearnosti u praksi se izdvojio faktor porasta varijanse (VIF, engleski variance inflation factor). Proces računanja VIF statistike je sljedeći:

1) za svaku od nezavisnih promjenljivih ocijenimo regresioni model nasuprot ostatka nezavisnih promjenljivih;

2) za svaki regresioni model iz prethodnog koraka izačunamo koeficijent determinacije:

R2=1−SSRTSSR^2 = 1 - \frac{SSR}{TSS}R2=1−TSSSSR​

gdje TSSTSSTSS predstavlja ukupnu sumu kvadrata odstupanja zavisne promjenljive od njene prosječne vrijednosti, dok SSRSSRSSR predstavlja sumu kvadrata reziduala ocijenjenog modela;

3) izračunati VIF statistiku kao:

VIF=11−R2VIF = \frac{1}{1 - R^2}VIF=1−R21​

U praksi ne postoji jedinstvena vrijednost VIF statistike koja se može smatrati limitom za identifikovanje problema multikolinearnosti. Bez obzira na odsustvo koncenzusa oko granične vrijednosti, obično vrijednosti između 4 i 5 potencijalno ukazuju na problem multikolinearnosti. Ove vrijednosti odgovaraju koeficijentima determinacije između 75% I 80%.

Primjer 59: Za ocijenjeni model iz Primjera 58, ispitati pretpostavke normalnosti (primjenom Jarque-Bera testa), heteroskedastičnosti (Breush-Pagan test), autokorelacije (Durbin-Watson test) i multikolinearnosti (VIF statistika)

> #import podataka
> db <- read.csv("OLS.csv", header = TRUE)
> #ocjena modela PD ~ GDP + UNEMP
> lm.e <- lm(PD ~ GDP + UNEMP, data = db)
> lm.s <- summary(lm.e)
> lm.s

Call:
lm(formula = PD ~ GDP + UNEMP, data = db)

Residuals:
       Min         1Q     Median         3Q        Max 
-0.0055926 -0.0009585 -0.0000525  0.0007807  0.0055605 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.012821   0.001296   9.895 2.33e-09 ***
GDP         -0.174668   0.025788  -6.773 1.06e-06 ***
UNEMP        0.029892   0.028863   1.036    0.312    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.002206 on 21 degrees of freedom
Multiple R-squared:  0.689,     Adjusted R-squared:  0.6594 
F-statistic: 23.26 on 2 and 21 DF,  p-value: 4.719e-06

> #reziduali
> resid <- lm.e$resid
> resid
            1             2             3             4             5             6             7 
-1.313940e-04  3.184617e-03  1.926128e-03 -9.556002e-04  1.621438e-03 -3.641317e-04 -5.592615e-03 
            8             9            10            11            12            13            14 
 2.556616e-04 -2.935418e-03 -9.585364e-04  4.611205e-04  5.560488e-03  7.730253e-04 -5.857225e-05 
           15            16            17            18            19            20            21 
 1.302221e-04 -1.055573e-03  8.036043e-04  3.403534e-04 -9.585712e-04 -5.242409e-04  1.728392e-03 
           22            23            24 
-9.679185e-04 -2.236101e-03 -4.637562e-05 
> #1. test normalnosti - jarque-bera test Primjer 53
> jb.n.test(x = resid)
  test.stat     p.val
1  3.974415 0.1370777
> #2. autokorelacija - DW statistika
> n <- length(resid)
> lag <- 1
> dw <- (sum((resid[(lag + 1):n] - resid[1:(n - lag)])^2)) / sum(resid^2)
> dw
[1] 1.805511
> #r funkcija - paket car
> #install.package("car")
> library(car)
> durbinWatsonTest(resid)
[1] 1.805511
> #3. heteroskedasticnost - breush-pagan test
> X <- model.matrix(lm.e)
> sigma2 <- sum(resid^2) / n
> sigma2
[1] 4.256987e-06
> f <- resid^2 / sigma2 - 1
> f
         1          2          3          4          5          6          7          8          9 
-0.9959445  1.3823853 -0.1284991 -0.7854887 -0.3824129 -0.9688531  6.3472976 -0.9846457  1.0241269 
        10         11         12         13         14         15         16         17         18 
-0.7841684 -0.9500510  6.2631246 -0.8596265 -0.9991941 -0.9960165 -0.7382574 -0.8483012 -0.9727882 
        19         20         21         22         23         24 
-0.7841528 -0.9354406 -0.2982505 -0.7799227  0.1745742 -0.9994948 
> het.reg <- lm(f ~ X - 1)
> het.reg

Call:
lm(formula = f ~ X - 1)

Coefficients:
X(Intercept)          XGDP        XUNEMP  
     -0.2823       -6.7049      -59.2067  

> bp <- 0.5 * sum(het.reg$fitted.values^2)
> bp
[1] 10.50071
> p.val <-  pchisq(bp, df = het.reg$rank - 1, lower.tail = FALSE)
> p.val
[1] 0.005245669
> #r funkcija - paket car
> #install.package("lmtest")
> library(lmtest)
> bptest(lm.e, studentize = FALSE)

        Breusch-Pagan test

data:  lm.e
BP = 10.501, df = 2, p-value = 0.005246

> #4. multikolinearnost - VIF
> lm.gdp <- lm(GDP ~ UNEMP, data = db)
> lm.gdp.s <- summary(lm.gdp)
> gdp.r2 <- lm.gdp.s$r.squared
> vif.gdp <- 1 / (1 - gdp.r2)
> vif.gdp
[1] 1.001165
> lm.unemp <- lm(UNEMP ~ GDP, data = db)
> lm.unemp.s <- summary(lm.unemp)
> unemp.r2 <- lm.unemp.s$r.squared
> vif.unemp <- 1 / (1 - unemp.r2)
> vif.unemp
[1] 1.001165
> #r funkcija - paket car
> vif(lm.e)
     GDP    UNEMP 
1.001165 1.001165

Posljedice neispunjenja neke od pretpostavki modela utiču na pristrasnost i/ili efikasnost ocjena koeficijenata regresionog modela. Različiti su pristupi rješavanju ovih problema u slučaju njihovog postojanja i u najvećoj mjeri zavise od cilja modeliranja zavisne promjenljive. Neke od najčešće upotrebljavanih metoda pokušaja rješavanja problema neispunjenosti pretpostavki modela linearne regresije jesu: transformacija zavisne promjenljive (npr. Box-Cox transformacije, logit ili probit), ocjena HAC standardnih grešaka (engleski heteroskedasticity and autocorrelation consistent), uvođenje zavisne promjenljive sa vremenskim zaostatkom, uvođenje nezavisnih promjenljivih sa vremenskim zaostatkom, promjena specifikacije modela, isključivanje visokokorelisanih nezavisnih promjenljivih.

Dodatno, odabir između više validnih regresionih modela vrši se uz pomoć određenih indikatora regresije. U praksi najčešće korišćeni indikatori su: koeficijent determinacije, prilagođeni koeficijent determinacije, informacioni kriterijumi (AIC – Akaike informacioni kriterijum, BIC – Bayesian informacioni kriterijum), standardna greška regresije (MSE, engleski regression mean square error), F statistika regresije.

Previous7.1. Ocjena modela linearne regresijeNext8. Binomna logistička regresija

Last updated 1 year ago

Was this helpful?