8. Binomna logistička regresija
Binomna logistička regresija predstavlja najčešće korišćenu statističku metodu za ocjenu rejting modela (PD modela, ali nekada je dio i LGD i EAD modela) u oblasti kreditnog rizika. Ona služi za modeliranje binomne ili dihotomne zavisne promjenljive (promjenljiva koja može uzeti samo dvije vrijednosti, npr. 0 i 1, ili dobar i loš i sl.). Funkcionalna forma modela binomne logističke regresije data je formulom:
gdje predstavlja zavisnu promjenljivu (binarni indikator), koeficijente logističke regresije, dok predstavlja set nezavisnih promjenljivih.
Ocjena parametara logističke regresije vrši se maksimiziranjem tzv. funkcije vjerodostojnosti (engleski maximum likelihood), koja ima sljedeći oblik:
gdje predstavlja ukupan broj opservacija, set nezavisnih promjenljivih, modelirani binomni indikator i koeficijente logističke regresije.
Standardne greške ocijenjenih koeficijenata logističke regresije date su formulom:
gdje predstavlja tzv. varijansnu/kovarijansnu matricu koja je izračunata kao dijagonalna matrica varijanse ocijenjenih vrijednosti zavisne promjenljive ( ):
Izvođenje zaključka o statističkoj značajnosti ocijenjenih koeficijenata vrši se na osnovu empirijskih vrijednosti i vjerovatnoća izvedenih iz vrijednosti. Izračunata statistika dobija se kao:
dok se odgovarajuća p vrijednost dobija na osnovu funkcije kumulative vjerovatnoće standardizovanog normalnog rasporeda (aritmetička sredina 0 i standardna devijacija 1). Poređenjem dobijenih p vrijednosti i određenog nivoa značajnosti izvodi se zaključak o statističkoj značajnosti ocijenjenih koeficijenata.
Primjer 60: U fajlu BLR.csv dati su podaci o 1000 klijenata sa indikatorom defaulta kredita (kolona y), kao i podaci o godinama starosti klijenata (kolona age) i ročnosti odobrenog kredita (kolona maturity). Ocijeniti model logističke regresije u kome indikator defaulta predstavlja zavisnu promjenljivu, dok godine klijenata i ročnost predstavljaju nezavisne promjenljive. Pored regresionih koeficijenata, prikazati i standardne greške tih ocjena, kao i z statistiku i odgovarajuće p vrijednosti za procjenu statističke značajnosti koeficijenata.
Interpretacija ocijenjenih koeficijenata znatno se olakšava eksponovanjem dobijenih rezultata i u tom slučaju vrši se u terminima vjerovatnoće. Konkretno, u prethodnom primjeru vrijednosti default indikatora 1 znači da je kredit u defaultu, dok vrijednost 0 znači da kredit nije u defaultu. Eksponovani ocijenjeni koeficijent za promjenljivu ročnost (maturity) iznosi 1.038, što bi značilo da se povećanjem ročnosti od 1 mjeseca, povećavaju i šanse da će klijent biti defaultni za 3.8%. Ista interpretacija se može primijeniti i za promjenljivu godine (age), pri čemu povećanje godina starosti klijenta za 1 godinu vodi ka smanjenju vjerovatnoće defaulta za 1.8%. Pored interpretacije samih koeficijenata, njihovu statističku značajnost ispitujemo poređenjem dobijenih p vrijednosti sa odabranim nivoom značajnosti (alpha).
Odabir između više statistički značajnih modela logističke regresije u praksi često se vrši poređenjem vrijednosti informacionih kriterijuma (AIC), poređenjem devijansi, proporcijom ispravno klasifikovanih vrijednosti (matrica konfuzije-engleski confusion matrix, AUC kriva-engleski area under curve) s obzirom na to da logistička regresija predstavlja tzv. klasifikacioni algoritam.
Last updated
Was this helpful?