Primijenjena statistika
  • Priručnik primijenjene statistike u R-u
  • Predgovor
  • 1. Uvod u R
    • 1.1. R objekti
    • 1.2. Manipulacije i agregacije podataka
    • 1.3. Import i eksport podataka
    • 1.4. Korisničke funkcije
  • 2. Tipovi i nivoi mjerenja statističkih obilježja
  • 3. Deskriptivna statistika i grafičko predstavljanje podataka
    • 3.1. Mjere centralne tendencije
    • 3.2. Mjere varijabiliteta
    • 3.3. Mjere oblika rasporeda
    • 3.4. Grafičko predstavljanje podataka
  • 4. Distribucije vjerovatnoća slučajne promjenljive
    • 4.1. Binomni raspored
    • 4.2. Normalni raspored
    • 4.3. Studentov t raspored
    • 4.4. Fišerov F raspored i hi-kvadrat raspored
  • 5. Uzorak i uzoračke ocjene
  • 6. Statističko testiranje hipoteza
    • 6.1. t-test na osnovu jednog uzorka
    • 6.2. t-test na osnovu dva uzorka
    • 6.3. Test proporcija
    • 6.4. Analiza varijanse – ANOVA (klasična ANOVA i Welch ANOVA)
    • 6.5. Wilcoxonov test ranga na osnovu jednog uzorka
    • 6.6. Wilcoxonov test na osnovu dva uzorka
    • 6.7. Kruskal-Wallisov test
    • 6.8. Testovi normalnosti
      • 6.8.1. Jarque-Bera test normalnosti
      • 6.8.2. Pearsonov hi-kvadrat test normalnosti
    • 6.9. Testovi homogenosti varijanse
      • 6.9.1. F test jednakosti varijansi
      • 6.9.2. Bartlettov test homogenosti varijansi
      • 6.9.3. Fligner-Killeenov test homogenosti varijansi
  • 7. Linearna regresija
    • 7.1. Ocjena modela linearne regresije
    • 7.2. Dijagnostika ocijenjenog modela linearne regresije
  • 8. Binomna logistička regresija
  • 9. Literatura
  • Biografija
Powered by GitBook
On this page

Was this helpful?

  1. 7. Linearna regresija

7.1. Ocjena modela linearne regresije

Jedna od metoda ocjene koeficijenata linearne regresije jeste tzv. metoda najmanjih kvadrata (engleski OLS, ordinary least square). Korišćenjem ove metode dobijaju se regresioni koeficijenti koji minimiziraju kvadratno odstupanje regresione prave od pojedinačnih vrijednosti zavisne promjenljive. Ukoliko u matričnom obliku sa XXX označimo set od kkk različitih nezavisnih promjenljivih sa ukupno nnn opservacija, a sa YYY nezavisnu promjenljivu takođe sa nnnopservacija, izraz za ocjenu regresionih koeficijenata putem metode najmanjih kvadrata ima formu:

β^=(X′X)−1X′Y\hat{\beta} = (X^{'}X)^{-1}X^{'}Yβ^​=(X′X)−1X′Y

Standardne greške ocijenjenih koeficijenata date su formulom:

se(β^)=σ^2(X′X)−1se(\hat{\beta}) = \sqrt{\hat{\sigma}^2}(X^{'}X)^{-1}se(β^​)=σ^2​(X′X)−1

gdje je σ^2\hat{\sigma}^2σ^2standardna greška regresije i računa se kao:

σ^2=(n−k−1)−1ε^′ε^\hat{\sigma}^2 = (n-k-1)^{-1}\hat{\varepsilon}^{'}\hat{\varepsilon}σ^2=(n−k−1)−1ε^′ε^

Izvođenje zaključka o statističkoj značajnosti ocijenjenih koeficijenata vrši se na osnovu empirijskih t vrijednosti i vjerovatnoća izvedenih iz tih vrijednosti. Izračunata t statistika dobija se kao:

t=β^−β0se(β^)t = \frac{\hat{\beta} - \beta_0}{se(\hat{\beta})}t=se(β^​)β^​−β0​​

dok se odgovarajuća p vrijednost dobija na osnovu funkcije kumulative vjerovatnoće t rasporeda za n−k−1n-k-1n−k−1 stepeni slobode. Poređenjem dobijenih p vrijednosti i određenog nivoa značajnosti izvodi se zaključak o statističkoj značajnosti ocijenjenih koeficijenata.

Primjer 58: U fajlu OLS.csv, dati su kvartalni podaci o vrijednostima PD-ijeva (kolona PD) sektora stanovništva i makroekonomskim indikatorima: BDP-u i promjenama stope nezaposlenosti (kolone GDP i UNEMP). Ocijeniti model linearne regresije u kome PD predstavlja zavisnu promjenljivu, dok BDP i promjena stope nezaposlenosti predstavljaju nezavisne promjenljive. Pored regresionih koeficijenata, prikazati i standardne greške tih ocjena, kao i t statistiku i odgovarajuće p vrijednosti za procjenu statističke značajnosti koeficijenata.

> #import podataka
> db <- read.csv("OLS.csv", header = TRUE)
> head(db)
        date          PD        GDP        UNEMP
1 30.06.2011 0.006352307 0.03647205  0.001098166
2 30.09.2011 0.013755036 0.01301340  0.000738216
3 31.12.2011 0.011773418 0.01959145  0.014984515
4 31.03.2012 0.002426234 0.05015856 -0.022696753
5 30.06.2012 0.010740290 0.01687268 -0.025271417
6 30.09.2012 0.001515230 0.06314364  0.002915853
> #definisanje zavisnih i nezavisnih promjenljivih
> Y <- as.matrix(db[, "PD", drop = FALSE])
> X <- as.matrix(cbind(1, db[, c("GDP", "UNEMP")]))
> #ocjena koeficijenata
> beta.coef <- solve(t(X) %*% X) %*% t(X) %*% Y
> beta.coef
               PD
1      0.01282138
GDP   -0.17466805
UNEMP  0.02989176
> #broj opservacija i nezavisnih promjenljivih
> n <- nrow(X)
> k <- ncol(X) - 1 
> #ocijenjene vrijednosti zavisne promjenljive
> Y.hat <- X %*% beta.coef
> #suma kvadrata odstupanja
> sse <- sum((Y - Y.hat)^2)
> sse
[1] 0.0001021677
> #standardna greska reziduala
> rse <- sqrt(sse / (n - k - 1))
> rse
[1] 0.002205703
> #standardna greska ocjene koeficijenata
> beta.coef.se <- sqrt(diag(rse^2 * solve(t(X) %*% X)))
> beta.coef.se
          1         GDP       UNEMP 
0.001295806 0.025787781 0.028863410 
> # t vrijednosti
> t.val <- beta.coef / beta.coef.se
> t.val
             PD
1      9.894520
GDP   -6.773287
UNEMP  1.035628
> #p vrijednosti
> p.val <- pt(abs(t.val), df = n - k - 1, lower.tail = FALSE) * 2
> p.val 
                PD
1     2.331995e-09
GDP   1.064356e-06
UNEMP 3.121548e-01
> #r funkcija
> lm.e <- lm(PD ~ GDP + UNEMP, data = db)
> lm.s <- summary(lm.e)
> lm.s$coef
               Estimate  Std. Error   t value     Pr(>|t|)
(Intercept)  0.01282138 0.001295806  9.894520 2.331995e-09
GDP         -0.17466805 0.025787781 -6.773287 1.064356e-06
UNEMP        0.02989176 0.028863410  1.035628 3.121548e-01

Ocijenjeni koeficijenti modela interpretiraju se u smislu jedinične promjene nezavisne promjenljive, pa na primjer možemo reći da za povećanje vrijednosti BDP-a za 1% (0.01) i zadržavanjem ostalih vrijednosti nezavisnih promjenljivih konstantnim, smanjuje vrijednost PD-ija za 0.17% (0.0017).

Previous7. Linearna regresijaNext7.2. Dijagnostika ocijenjenog modela linearne regresije

Last updated 1 year ago

Was this helpful?