Primijenjena statistika
  • Priručnik primijenjene statistike u R-u
  • Predgovor
  • 1. Uvod u R
    • 1.1. R objekti
    • 1.2. Manipulacije i agregacije podataka
    • 1.3. Import i eksport podataka
    • 1.4. Korisničke funkcije
  • 2. Tipovi i nivoi mjerenja statističkih obilježja
  • 3. Deskriptivna statistika i grafičko predstavljanje podataka
    • 3.1. Mjere centralne tendencije
    • 3.2. Mjere varijabiliteta
    • 3.3. Mjere oblika rasporeda
    • 3.4. Grafičko predstavljanje podataka
  • 4. Distribucije vjerovatnoća slučajne promjenljive
    • 4.1. Binomni raspored
    • 4.2. Normalni raspored
    • 4.3. Studentov t raspored
    • 4.4. Fišerov F raspored i hi-kvadrat raspored
  • 5. Uzorak i uzoračke ocjene
  • 6. Statističko testiranje hipoteza
    • 6.1. t-test na osnovu jednog uzorka
    • 6.2. t-test na osnovu dva uzorka
    • 6.3. Test proporcija
    • 6.4. Analiza varijanse – ANOVA (klasična ANOVA i Welch ANOVA)
    • 6.5. Wilcoxonov test ranga na osnovu jednog uzorka
    • 6.6. Wilcoxonov test na osnovu dva uzorka
    • 6.7. Kruskal-Wallisov test
    • 6.8. Testovi normalnosti
      • 6.8.1. Jarque-Bera test normalnosti
      • 6.8.2. Pearsonov hi-kvadrat test normalnosti
    • 6.9. Testovi homogenosti varijanse
      • 6.9.1. F test jednakosti varijansi
      • 6.9.2. Bartlettov test homogenosti varijansi
      • 6.9.3. Fligner-Killeenov test homogenosti varijansi
  • 7. Linearna regresija
    • 7.1. Ocjena modela linearne regresije
    • 7.2. Dijagnostika ocijenjenog modela linearne regresije
  • 8. Binomna logistička regresija
  • 9. Literatura
  • Biografija
Powered by GitBook
On this page

Was this helpful?

5. Uzorak i uzoračke ocjene

Pod pojmom populacija u statistici podrazumijeva se skup svih jedinica posmatranja koje imaju određene karakteristike relevantne za neko istraživanje. Za razliku od populacije, uzorak predstavlja slučajno izabrani dio populacije. Ako za cilj statističke analize prihvatimo da je to proces prikupljanja, analize i donošenja zaključaka o populaciji istraživanja, onda se često postavlja pitanje-zašto se za posmatranje obično bira uzorak, a ne cijela populacija. Najčešće, obuhvatanje cijele populacije zahtijeva veliko vrijeme i troškove, pa se umjesto populacije prikupljaju podaci na osnovu reprezentativnog uzorka.

Primjer 35: U fajlu PD.csv dati su podaci o mjesečnim PD-ijevima, za posljednjih 120 mjeseci. Izračunati prosječni PD za cjelokupni period. Zatim, izračunati prosječni PD za slučajno odabrani uzorak od 30 mjeseci bez ponavljanja. Ponoviti proces uzorkovanja još jednom i izračunati pristrasnost uzoračke ocjene posječnog PD-ija u odnosu na cjelokupni dostupan period.

> db <- read.csv("PD.csv", header = TRUE)
> as.populacija <- mean(db$PD)
> as.populacija
[1] 0.02272998
> set.seed(1984)
> as.uzorak1 <- mean(sample(db$PD, 30, rep = FALSE))
> as.uzorak1
[1] 0.02314603
> set.seed(2211)
> as.uzorak2 <- mean(sample(db$PD, 30, rep = FALSE))
> as.uzorak2
[1] 0.0223359
> #pristrasnost uzorka
> as.populacija - as.uzorak1
[1] -0.0004160481
> as.populacija - as.uzorak2
[1] 0.0003940798

Kao što se može primijetiti pri svakom novom, slučajnom odabiru dobićemo drugačiju vrijednost prosječnog PD-ija.

Pretpostavimo da za vrijednosti PD-ija za svih 120 mjeseci dodatno imamo indikator stanja makroekonomskog okruženja (kolona period u fajlu PD.csv) mjerenog vrijednostima iznad ili ispod prosjeka BDP-a za posmatrani period.

Primjer 36: Ocijenimo prosječnu vrijednost PD-ija (PD.csv) na osnovu uzorka od 60 mjeseci bez ponavljanja i to odabranih na način da se po 30 mjeseci izabere iz oba perioda stanja ekonomije (iznad i ispod prosječnog BDP-a).

> n1 <- 30
> n2 <- 30
> period.vrijednosti <- unique(db$period)
> period.vrijednosti
[1] "BDP ispod prosjeka" "BDP iznad prosjeka"
> N <- table(db$period)
> N1 <- N[period.vrijednosti[1]]
> N1
BDP ispod prosjeka 
                56 
> N2 <- N[period.vrijednosti[2]]
> N2
BDP iznad prosjeka 
                64 
> set.seed(321)
> pd.period1 <- sample(db$PD[db$period%in%period.vrijednosti[1]], n1, rep = FALSE)
> pd.period2 <- sample(db$PD[db$period%in%period.vrijednosti[2]], n2, rep = FALSE)
> #prosjecan PD za uzorak po periodima
> pd.as1 <- mean(pd.period1)
> pd.as2 <- mean(pd.period2)
> #ponderisani prosjek PD-ija kao ocjena ukupnog perioda od 120 mjeseci
> #vrijednosti n1 / N1 i n2 / N2 predstavljaju pondere
> pd.as.ponderisana <- (n1 / N1) * pd.as1 + (n2 / N2) * pd.as2
> as.numeric(pd.as.ponderisana)
[1] 0.02288108
> #stvarna ocjena prosjecnog PD-ija ukupnog period
> pd.as.stvarna <- mean(db$PD)
> pd.as.stvarna
[1] 0.02272998
> #pristrasnost
> as.numeric(pd.as.stvarna - pd.as.ponderisana)
[1] -0.0001511022

Ovakav uzorak naziva se stratifikovani (jer se uzorci biraju iz određenih grupa koje se u teoriji uzorka nazivaju stratumima) i prosječna ocjena nekog obilježja za populaciju razlikuje se od slučajnog prostog uzorka (prethodni primjer). U zavisnosti od alokacije uzorka i alokacionog obilježja, prosječna vrijednost analiziranog obilježja dobija se kao ponderisana prosječna vrijednost (koristi se formula za ponderisanu aritmetičku sredinu) analiziranog obilježja po stratumima. Prateći iste principe i ostali momenti mogu biti izračunati kao što su ponderisana standardna devijacija ili varijansa.

Sama činjenica da se radi ocjena uzorka, a ne ocjena na osnovu cijele populacije, ukazuje na postojanje određene greške ocjene. Kao što je pokazano dva različita uzorka iste veličine mogu imati različite ocjene aritmetičke sredine. Zbog toga kao komplementarna vrijednost, ocjeni aritmetičke sredine, često se pridružuje i standardna greška ocjene aritmetičke sredine. Ujedno ova mjera predstavlja i mjeru preciznosti ocjene. Za prost slučajni uzorak, konačne populacije, standardna greška ocjene aritmetičke sredine računa se po formuli:

σe=sx1−nN\sigma_{e} = \frac{s}{\sqrt{x}}\sqrt{1 - \frac{n}{N}}σe​=x​s​1−Nn​​

gdje nnn predstavlja veličinu uzorka, NNN veličinu populacije, sss varijansu analiziranog obilježja računatu iz uzorka. Prvi dio formule sn\frac{s}{n}ns​ predstavlja standardnu grešku ocjene aritmetičke sredine, a drugi 1−nN\sqrt{1-\frac{n}{N}}1−Nn​​ korekcioni faktor za konačnu populaciju. Kako je u praksi obično veličina ukupne populacije ili nepoznata, ili je neograničeno velika, tako korekcioni faktor ne igra bitnu ulogu i obično se ne uzima u obzir prilikom obračuna standardne greške ocjene aritmetičke sredine. Standardna greška ocjene aritmetičke sredine (za beskonačno veliku populaciju) stratifikovanog uzorka računa se po formuli:

σe=∑h=1lNhNshnh\sigma_{e} = \sum_{h=1}^{l} \frac{N_h}{N}\frac{s_h}{\sqrt{n_h}}σe​=h=1∑l​NNh​​nh​​sh​​

gdje nhn_hnh​ predstavlja veličinu uzorka u stratumu hhh, NhN_hNh​ veličinu populacije stratuma hhh, NNN ukupne veličinu populacije, shs_hsh​ varijansu analiziranog obilježja računatu iz uzorka u stratumu hhh i lll broj stratuma.

Primjer 37: Za uzorački prosječan PD iz Primjera 35 i Primjera 36 izračunati standardnu grešku ocjene. Prilikom obračuna uzeti u obzir korekcioni faktor konačne populacije.

> #prost slucajni uzorak - Primjer 35
> n <- 30
> N <- length(db$PD)
> set.seed(1984)
> pd.uzorak <- sample(db$PD, 30, rep = FALSE)
> se <- (sd(pd.uzorak) / sqrt(n)) * (sqrt(1 - n / N))
> se
[1] 0.0007521448
> #stratifikovani uzorak - Primjer 36
> n1 <- 30
> n2 <- 30
> nh <- c(n1, n2)
> period.vrijednosti <- unique(db$period)
> period.vrijednosti
[1] "BDP ispod prosjeka" "BDP iznad prosjeka"
> N <- table(db$period)
> N1 <- N[period.vrijednosti[1]]
> N1
BDP ispod prosjeka 
                56 
> N2 <- N[period.vrijednosti[2]]
> N2
BDP iznad prosjeka 
                64 
> Nh <- c(N1, N2)
> set.seed(321)
> pd.period1 <- sample(db$PD[db$period%in%period.vrijednosti[1]], n1, rep = FALSE)
> pd.period2 <- sample(db$PD[db$period%in%period.vrijednosti[2]], n2, rep = FALSE)
> sh <- c(sd(pd.period1), sd(pd.period2))
> sh
[1] 0.004442230 0.004466614
> se.ss <- sum((Nh / sum(Nh)) * (sh / sqrt(nh)) * (sqrt(1 - nh / Nh)))
> se.ss
[1] 0.0005748981

S obzirom na to da distribucija ocijene aritmetičke sredine prati normalni raspored, dostupnost ocjenjene vrijednosti aritmetičke sredine i standardne greške te ocjene, omogućava konstruisanje intervala povjerenja ocijenjene aritmetičke sredine:

Xsˉ±z(1−α2)sxˉ\bar{X_s}\pm z(1 - \frac{\alpha}{2})s_{\bar{x}}Xs​ˉ​±z(1−2α​)sxˉ​

gdje je Xsˉ\bar{X_s}Xs​ˉ​ ocijenjena aritmetička sredina, z(1−α2)z(1 - \frac{\alpha}{2})z(1−2α​) vrijednost normalnog rasporeda za nivo značajnosti α\alphaα i sxˉs_{\bar{x}}sxˉ​ standardna greška ocjene aritmetičke sredine.

Primjer 38: Simulirati i grafički na histogramu predstaviti empirijsku distribuciju aritmetičke sredine PD vrijednosti (fajl PD.csv) koristeći 10000 slučajno odabranih uzoraka i uzoračku frakciju od 30%.

> broj.simulacija <- 10e3
> uzoracka.frakcija <- 0.3
> velicina.uzorka <- round(uzoracka.frakcija * length(db$PD))
> as.pd <- mean(db$PD)
> as.pd
[1] 0.02272998
> set.seed(984)
> as.simulacija <- replicate(broj.simulacija, mean(sample(db$PD, velicina.uzorka, rep = FALSE)))
> mean(as.simulacija)
[1] 0.02273099
> hist(as.simulacija, 
+      main = "Simulacija distribucije prosjecnog PD-ija", 
+      ylab = "Frekvencije",
+      xlab = "Prosjecni PD", 
+      col = "red")

Rezultati Primjera 38 pokazuju osnovanost pretpostavke da distribucija aritmetičke sredine prati normalan raspored. Korišćenjem sličnog principa (uzorkovanje sa ponavljanjem ili bez ponavljanja) moguće je simulirati empirijsku distribuciju nekog drugog deskriptivnog parametra ili test statistike.

Primjer 39: Na osnovu podataka o prosječnim PD-ijevima (Primjer 35 i Primjer 36) i greškama ocjene (Primjer 37), izračunati 95% interval povjerenja ocijenjenih prosječnih vrijednosti.

> alpha <- 0.05
> #prost slucajni uzorak - gornja i donja granica 95% intervala povjerenja
> psu.ip.as <- c(as.uzorak1 - qnorm(1 - alpha / 2, 0, 1) * se, as.uzorak1 + qnorm(1 - alpha / 2, 0, 1) * se)
> psu.ip.as
[1] 0.02167185 0.02462020
> #stratifikovani uzorak - gornja i donja granica 95% intervala povjerenja
> ssu.ip.as <- c(as.numeric(pd.as.ponderisana) - qnorm(1 - alpha / 2, 0, 1) * se.ss,
+    as.numeric(pd.as.ponderisana) + qnorm(1 - alpha / 2, 0, 1) * se.ss)
> ssu.ip.as
[1] 0.02175430 0.02400786

Previous4.4. Fišerov F raspored i hi-kvadrat rasporedNext6. Statističko testiranje hipoteza

Last updated 4 years ago

Was this helpful?