3.4. Grafičko predstavljanje podataka
Last updated
Was this helpful?
Last updated
Was this helpful?
Pored računanja deskriptivne statistike, u cilju boljeg razumijevanja analiziranog obilježja, veoma je korisno grafički predstaviti podatke. Često vizuelna prezentacija podataka ima veći efekat na razumijevanje analiziranog obilježja od čisto sumarnih statistika. U ovoj sekciji biće predstavljene tri vrste grafika: histogram, boks dijagram (engleski boxplot) i multivarijantni dijagram rasturanja (engleski scatter plot) za numerička obilježja i bar dijagram za kvalitativna obilježja.
Histogram predstavlja jedan od najčešće korišćenih grafika za univarijantno prezentovanje numeričkog obilježja. Jedan od načina određivanja broja intervalnih klasa za histogram jeste tzv. Sturgesovo pravilo. Na osvnovu tog pravila broj intervalnih klasa određujemo formulom:
gdje je broj vrijednosti analiziranog obilježja. Na osnovu broja intervalnih grupa jednostavno je odrediti širinu intervala koristeći formulu:
gdje su i maksimalna i minimalna vrijednost obilježja . Na osnovu ovih podataka definišu se intervalne klase i prebroji se koliko se podataka analiziranog obilježja nalazi u kojoj klasi. Na apscisi (x osi) koordinatnog sistema histograma predstavljene su formirane intervalne klase, dok su na ordinati (y osi) predstavljenje frekvencije tih klasa.
Primjer 23: Predstaviti histogram slučajno generisanih vrijednosti obilježja koje dolazi iz normalne raspodjele sa aritmetičkom sredinom 10 i standardnom devijacijom 1.
Prethodni primjer pokazuje slučaj kada korisnik sam definiše broj intervalnih klasa koristeći Sturgesovo pravilo primoravajući histogram da prikaže tačno izračunat broj intervalnih klasa. Defaultna podešavanje R funkcije hist
imaju određene interne algoritme za prilagođavanja broja intervalnih klasa tako da rezultati mogu odudarati od prikazanog Primjera 23.
Primjer 24:
Primjer 25: Predstaviti boks dijagram 20 slučajno generisanih vrijednosti obilježja koje dolazi iz normalne raspodjele sa aritmetičkom sredinom 0 i standardnom devijacijom 1.
Napomena: Argument range
funkcije boxplot omogućava korisniku da sam definiše način konstruisanja minimuma i maksimuma boxplota, a samim tim i da promijeni kriterijume za identifikovanje potencijalnih outliera.
Statistička analiza obično pretpostavlja analizu seta obilježja prije nego analizu samo jednog obilježja. Takvi setovi podataka u R-u mogu biti predstavljeni multivarijantnom matricom plota - kao što je prikazano sljedećim primjerom.
Primjer 26: Na multivarijantnom dijagramu rasturanja predstaviti set podataka iris
Bar dijagram predstavlja jednostavan, ali veoma efikasan način predstavljanja kvalitativnih obilježja. Po izgledu sličan je histogramu, a jednostavno rečeno predstavlja grafički prikaz broja jedinica svake kategorije analiziranog obilježja.
Primjer 27: Slučajno generisne vrijednosti obilježja (x
) iz Primjera 23, podijeliti u 5 intervalnih grupa jednake intervalne širine, a zatim grafički predstaviti transformisano obilježje na bar dijagramu.
Pored funkcija koje su dio osnovne konfiguracije, R ima izuzetno razvijen modul za grafičku prezentaciju podataka u vidu dodatnih paketa. Tako je na primjer paket ggplot2
neformalno priznat kao standard za grafičko predstavljanјe podataka unutar R zajednice.
Primjer 28: Provjeriti da li je paket ggplot2
već instaliran. Ukoliko nije, instalirati isti, а ukoliko jeste, importovati paket. Zatim koristeći generisana obilježja iz Primjera 21 (x
) i Primjera 24 (x.trans
) definisati data frame db
. Na kraju, predstaviti obilježje x
na histogramu, boks dijagramu i linijskom dijagramu, a obilježje x.trans
predstaviti na bar dijagramu.
Boks dijagram sumira i grafički predstavlja vrijednosti obilježja u 5 brojeva i to: minimum, prvi kvartil (25%), medijanu (50%), treći kvartil (75%) i maksimum. Česte su modifikacije boks dijagrama u cilju utvrđivanja vrijednosti koje su potencijalni outlieri. Te modifikacije se odnose na računanje početne i krajnje vrijednosti 5 brojeva boxplota. Po defaultu minimum boxplota računa se u odnosu na vrijednost , dok se maksimum računa u odnosu na vrijednosti , gdje su i prvi i treći kvartil obilježja , a interkvartilna razlika obilježja .