6.2. t-test na osnovu dva uzorka

U zavisnosti od toga da li su vrijednosti obilježja iz dva uzorka nezavisne ili ne, razlikujemo nezavisni i upareni t-test. Kod nezavisnog t-testa, pretpostavka je da vrijednosti obilježja uzoraka dolaze iz dvije nezavisne populacije, a obično i veličina uzoraka je različita. Na osnovu vrijednosti iz takva dva uzorka možemo testirati hipotezu o jednakosti ili nejednakosti aritmetičkih sredina obilježja. t statistika nezavisnog test iz dva uzorka dobija se na osnovu izraza:

t=XaˉXbˉvana+vbnbt = \frac{\bar{X_a} - \bar{X_b}}{\sqrt{\frac{v_a}{n_a}+\frac{v_b}{n_b}}}

gdje su Xaˉ\bar{X_a} i Xbˉ\bar{X_b} aritmetičke sredine uzoraka aa i bb, vav_a i vbv_b varijanse, dok nan_a i nbn_b predstavljaju veličine uzoraka. Za razliku od nezavisnog t-testa, upareni t-test podrazumijeva da vrijednosti uzoraka dolaze iz iste populacije odnosno da su korelisane. U suštini, upareni t-test podrazumijeva prikupljanje vrijednosti obilježja istih jedinica uzorka u dva različita vremenska perioda. t statistika uparenog testa računa se kao:

t=dˉsdnt = \frac{\bar{d}}{\frac{s_d}{\sqrt{n}}}

gdje dˉ\bar{d} predstavlja aritmetičku sredinu razlike vrijednosti uparenih uzoraka, sds_d standardnu devijaciju te razlike, a nn broj podataka.

Primjer 42: Fajl LGD.csv sadrži podatke o ocijenjenim (modelskim) LGD vrijednostima (kolona LGDE) i realizovanim LGD vrijednostima za 500 kredita. Pod pretpostavkom da LGD vrijednosti prate normalni rasprored, testirati da li je prosječni ostvareni LGD veći od prosječnog ocijenjenog LGD-ija. Koristiti nivo značajnosti od 5%.

> x1 <- db$LGDR 
> x2 <- db$LGDE
> #H1: prosjecni realizovani LGD-ija > prosjecnog ocijenjenog LGD-ija
> alpha <- 0.05
> d <- x1 - x2
> n <- length(d)
> t.stat <- mean(d) / (sd(d) / sqrt(n))
> t.stat 
[1] 31.37349
> p.val <- pt(t.stat, n - 1, lower.tail = FALSE)
> p.val
[1] 1.972374e-120
> p.val < alpha
[1] TRUE
> #t.test funkcija
> tt.r <- t.test(x = x1, y = x2, alternative = "greater", paired = TRUE)
> tt.r

        Paired t-test

data:  x1 and x2
t = 31.373, df = 499, p-value < 2.2e-16
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
 0.06371608        Inf
sample estimates:
mean of the differences 
             0.06724834 

> tt.r$p.val
[1] 1.972374e-120

Last updated

Was this helpful?