6.4. Analiza varijanse – ANOVA (klasična ANOVA i Welch ANOVA)
U slučaju testiranja hipoteza na osnovu više od dva uzorka, umjesto primjene t-testa na sve moguće kombinacije dva uzorka od ukupnog broja uzoraka i otežanog kontrolisanja greške tipa I, može se primijeniti analiza varijanse na osnovu koje testiramo hipotezu da li su razlike aritmetičkih sredina testiranog obilježja u svim uzorcima jednake ili da li postoji makar jedan par uzoraka čija je razlika aritmetičkih sredina statistički značajna. Pretpostavke koje su važile za t-test (normalnost i homogenost varijansi) važe i za klasičnu analizu varijanse uz dodatnu pretpostavku o nezavisnosti jedinica uzorka. Klasična analiza varijanse podrazumijeva postupak poređenja faktorske i rezidualne sume kvadrata odstupanja. Naime, ukupan varijabilitet nekog obilježja može se podijeliti na sumu kvadrata odstupanja unutar uzoraka (rezidualni varijabilitet) i između uzoraka (faktorski varijabilitet). Formule za računanje faktorske i rezidualne sume kvadrata odstupanja date su sljedećim izrazima:
Vf=r−1∑i=1rni(Xiˉ−Xˉ)2
gdje Vf predstavlja faktorsku varijansu, ni predstavlja veličinu i-tog uzorka, Xiˉ aritmetičku sredinu i-tog uzorka, Xˉ zajedničku aritmetičku sredinu svih uzoraka, dok broj uzoraka;
Vr=n−r∑i=1r∑j=1nni(Xijˉ−Xiˉ)2
gdje Vr predstavlja rezidualnu varijansu, Xij predstavlja j-tu vrijednost obilježja u i-tom uzorku, Xˉ aritmetičku sredinu i-tog uzorka.
Odnos ova dva varijabiliteta, u slučaju ispunjenosti pretpostavki ANOVA, prati raspored sa stepenima slobode r−1 i n−r, gdje je broj uzoraka (modaliteti faktora varijabiliteta), a n veličina uzoraka:
F=VrVf
Primjer 45: U fajlu LGD.csv dati su podaci o realizovanim vrijednostima LGD-ija (kolona LGDR), kao i LGD segment (kolona segment.e) kome određeni kredit pripada. Pod pretpostavkom ispunjenosti uslova normalnosti, homogenosti varijansi i nezavisnosti opservacija, za nivo značajnosti od 5% ispitati da li postoji bar jedan par prosječnih vrijednosti LGD-ija datih segmenata koji su statistički različit jedan od drugog.
Pošto je izračunata p vrijednost (p.val) manja od nivoa značajnosti 5%, zaključujemo da prosječni LGD bar jednog segmenta (segment.e) jeste statistički značajno različit u odnosu na prosječni LGD ostalih segmenata.
Da bi se utvrdilo kod kojeg je para segmenata razlika u prosječnom LGD-iju statistički značajna, možemo primijeniti t-test sa korekcijom p vrijednosti zbog višestrukog poređenja aritmetičkih sredina. Primjenju se različite metode korekcije p vrijednosti, a jedna od korišćenih je tzv. Bonferroni metoda, koja penalizuje p vrijednost t-testa množeći je sa brojem parova na koje je primijenjen t-test. Pored ovog metoda često korišćen metod kod klasične ANOVA jeste i tzv. Tukeyev metod razlike višestrukog t-testa (za dodatni primjer pogledati R funkciju ?TukeyHSD).
Primjer 46: Na osnovu podataka iz Primjera 45, i za isti nivo značajnosti, ispitati kod kojih parova segmenata prosječnog LGD-ija postoji statistički značajna razlika. Za korekciju izračunatih pojedinačnih p vrijednosti t-testa, primijeniti Bonferroni metodu.
> ug <- sort(unique(db$segment.e))
> ug
[1] "segment1" "segment2" "segment3" "segment4"
> #nezavisni t-test aritmetickih sredina segmenta 1 i segmenta 2
> par12 <- t.test(x = db$LGDR[db$segment.e%in%ug[1]], y = db$LGDR[db$segment.e%in%ug[2]], paired = FALSE)
> par12
Welch Two Sample t-test
data: db$LGDR[db$segment.e %in% ug[1]] and db$LGDR[db$segment.e %in% ug[2]]
t = -20.493, df = 58.006, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.1677286 -0.1378776
sample estimates:
mean of x mean of y
0.3027159 0.4555191
> par12$p.val * ncol(combn(length(ug), 2))
[1] 1.815098e-27
> #korisnicka funkcija za generalizaciju p vrijednosti visestrukog t-testa i Bonferroni korekcije
> p.val.vtt <- function(x, y) {
+ ug <- sort(unique(y))
+ tc <- combn(length(ug), 2)
+ tcn <- ncol(tc)
+ p.val.corr <- rep(NA, tcn)
+ for(i in 1:tcn) {
+ tc.l <- tc[, i]
+ seg.x <- tc.l[1]
+ seg.y <- tc.l[2]
+ p.val.itt <- t.test(x = x[y%in%ug[seg.x]], y = x[y%in%ug[seg.y]], paired = FALSE)$p.val
+ p.val.corr[[i]] <- p.val.itt * tcn
+ }
+ names(p.val.corr) <- apply(tc, 2, function(x) paste0(ug[x[1]], " VS ", ug[x[2]]))
+ return(p.val.corr)
+ }
> p.val.vtt(x = db$LGDR, y = db$segment.e)
segment1 VS segment2 segment1 VS segment3 segment1 VS segment4 segment2 VS segment3
1.815098e-27 2.956596e-45 1.069345e-41 9.848637e-109
segment2 VS segment4 segment3 VS segment4
4.188637e-26 5.093785e-17
> #r funkcija za visestruki t-test sa korekcijom p vrijednosti
> pw.tt <- pairwise.t.test(db$LGDR, db$segment.e, p.adjust.method = "bonferroni", pool.sd = FALSE)
> pw.tt$p.value
segment1 segment2 segment3
segment2 1.815098e-27 NA NA
segment3 2.956596e-45 9.848637e-109 NA
segment4 1.069345e-41 4.188637e-26 5.093785e-17
U slučaju kada pretpostavka homogenosti varijanse između uzoraka nije ispunjena, veću moć otkrivanja statistički značajne razlike između aritmetičkih sredina ima tzv. Welch analiza varijanse. Test statistika Welch ANOVA računa se po sljedećoj fomuli:
gdje K predstavlja broj uzoraka za koje računamo razliku između aritmetičkih sredina, sj2 varijansu analiziranog obilježja za j-ti uzorak i nj broj opservacija analiziranog obilježja unutar j-tog uzorka. Izračunata statistika prati F raspored sa df1 i df2 stepeni slobode definisane sljedećim formulama:
df1=K−1
df2=3∑j=1K(nj−11)(1−wwj)2K2−1
Primjer 47: Za podatke iz Primjera 45, pod pretpostavkom da uslov homogenosti varijanse nije ispunjen, ispitati da li postoji bar jedan par prosječnih vrijednosti realizovanih LGD-ija datih segmenata koji je statistički različit jedan od drugog.
Kako bi se utvrdili parovi prosječnih vrijednosti LGD-ija kod kojih postoji statistički značajna razlika i pod pretpostavkom da uslov homogenosti varijanse nije ispunjen (Welch ANOVA inicijalno primijenjena), primjenjujemo tzv. Games-Howell test, čija test statistika ima sljedeću formu:
GH=nisi2+njsj2Xiˉ−Xjˉ
gdje Xiˉ i Xjˉ predstavljaju par aritmetičkih sredina uzoraka koji se porede, dok si2, sj2, nii nj predstavljaju varijansu i veličinu i-tog odnosno j-tog uzorka. Izračunata test statistika prati Tukeyev raspored sa standardnom devijacijom σ i stepenima slobode df1 i df2 .
Primjer 48: Za podatke iz Primjera 47, ispitati kod kojih parova segmenata prosječnog LGD-ija postoji statistički značajna razlika. Zbog pretpostavke da uslov homogenosti varijanse nije ispunjen, primijeniti Games-Howell test.
Često su u praksi pretpostavke normalnosti i homogenosti varijanse narušene. U tim situacijama i posebno u kombinaciji sa uzorcima male veličine (30 ili manje opservacija) veću moć otkrivanja statistički značajnih razlika imaju neparametarski testovi. Kod većih uzoraka testovi jednakosti aritmetičkih sredina usljed djelovanja centralne granične teoreme prilično su stabilni, ali testovi disperzije su izuzetno osjetljivi. U narednim primjerima biće prikazani neparametarski testovi koji su analogni prethodnom predstavljenim parametarskim testovima.