Primijenjena statistika
  • Priručnik primijenjene statistike u R-u
  • Predgovor
  • 1. Uvod u R
    • 1.1. R objekti
    • 1.2. Manipulacije i agregacije podataka
    • 1.3. Import i eksport podataka
    • 1.4. Korisničke funkcije
  • 2. Tipovi i nivoi mjerenja statističkih obilježja
  • 3. Deskriptivna statistika i grafičko predstavljanje podataka
    • 3.1. Mjere centralne tendencije
    • 3.2. Mjere varijabiliteta
    • 3.3. Mjere oblika rasporeda
    • 3.4. Grafičko predstavljanje podataka
  • 4. Distribucije vjerovatnoća slučajne promjenljive
    • 4.1. Binomni raspored
    • 4.2. Normalni raspored
    • 4.3. Studentov t raspored
    • 4.4. Fišerov F raspored i hi-kvadrat raspored
  • 5. Uzorak i uzoračke ocjene
  • 6. Statističko testiranje hipoteza
    • 6.1. t-test na osnovu jednog uzorka
    • 6.2. t-test na osnovu dva uzorka
    • 6.3. Test proporcija
    • 6.4. Analiza varijanse – ANOVA (klasična ANOVA i Welch ANOVA)
    • 6.5. Wilcoxonov test ranga na osnovu jednog uzorka
    • 6.6. Wilcoxonov test na osnovu dva uzorka
    • 6.7. Kruskal-Wallisov test
    • 6.8. Testovi normalnosti
      • 6.8.1. Jarque-Bera test normalnosti
      • 6.8.2. Pearsonov hi-kvadrat test normalnosti
    • 6.9. Testovi homogenosti varijanse
      • 6.9.1. F test jednakosti varijansi
      • 6.9.2. Bartlettov test homogenosti varijansi
      • 6.9.3. Fligner-Killeenov test homogenosti varijansi
  • 7. Linearna regresija
    • 7.1. Ocjena modela linearne regresije
    • 7.2. Dijagnostika ocijenjenog modela linearne regresije
  • 8. Binomna logistička regresija
  • 9. Literatura
  • Biografija
Powered by GitBook
On this page

Was this helpful?

  1. 3. Deskriptivna statistika i grafičko predstavljanje podataka

3.1. Mjere centralne tendencije

U najčešće korišćene mjere centralne tendencije spadaju: aritmetička sredina, geometrijska sredina, medijana i modus.

Aritmetička sredina predstavlja količnik zbira svih vrijednosti obilježja i broja vrijednosti tog obilježja. U zavisnosti od toga da li se računa za grupisane ili negrupisane podatake razlikujemo prostu i ponderisanu aritmetičku sredinu.

Prosta aritmetička sredina ima oblik:

Xˉ=∑inXin\bar{X} = \frac{\sum_{i}^{n}{X}_{i}}{n}Xˉ=n∑in​Xi​​

gdje Xi{X}_{i}Xi​ označava iii-tu vrijednost obilježja, a nnn broj vrijednosti obilježja, dok ponderisana aritmetička sredina ima oblik:

Xˉ=∑infiXi∑infi\bar{X} = \frac{\sum_{i}^{n}{f}_{i}{X}_{i}}{\sum_{i}^{n}{f}_{i}}Xˉ=∑in​fi​∑in​fi​Xi​​

gdje fi{f}_{i}fi​ označava frekvenciju iii-te vrijednosti obilježja u uzorku.

Primjer 18: Slučajnim uzorkom izabrano je 5 klijenata banke koji su imali sljedeće iznose odobrenih kredita: 10000 eura, 8500 eura, 2500 eura, 12700 eura, 5600 eura. Izračunati prosječni iznos odobrenih kredita na osnovu slučajnog uzorka od 5 klijenata.

> #oznaka e3 je ekvivalentna mnozenju broja sa 1000 (10e3 je 10000)
> iznos.kredita <- c(10e3, 8.5e3, 2.5e3, 12.7e3, 5.6e3)
> sum(iznos.kredita) / length(iznos.kredita)
[1] 7860

ili koristeći postojeću funkciju mean:

> mean(iznos.kredita)
[1] 7860

Pretpostavimo sada da umjesto uzorka od 5 klijenata, imamo ukupan pregled svih klijenata sa sljedećim odobrenim iznosima kredita:

Opis

Klijent 1

Klijent 2

Klijent 3

Klijent 4

Klijent 5

Iznos odobrenog kredita (EUR)

12700

10000

8500

5600

2500

Broj odobrenih

kredita

10

55

80

60

15

Prosječan iznos odobrenih kredita ovako grupisanih podataka dobili bismo na sljedeći način:

> db <- data.frame(iznos.kredita = c(12.7e3, 10e3, 8.5e3, 5.6e3, 2.5e3),
+                  broj.kredita = c(10, 55, 80, 60, 15))
> sum(db$iznos.kredita * db$broj.kredita) / sum(db$broj.kredita)
[1] 7865.909 

ili koristeći postojeću funkciju weighted.mean:

> weighted.mean(x = db$iznos.kredita, w = db$broj.kredita)
[1] 7865.909 

Dvije najznačajnije osobine aritmetičke sredine su:

1) Suma odstupanja vrijednosti obilježja od aritmetičke sredine jednaka je nuli:

∑in(Xi−Xˉ)=0\sum_{i}^{n}({{X}_{i} - \bar{X}}) = 0i∑n​(Xi​−Xˉ)=0

Na osnovu prethodnog primjera-uzorka od 5 klijenata banke dobijamo:

> sum(iznos.kredita - mean(iznos.kredita))
[1] 0

2) Suma kvadrata odstupanja od aritmetičke sredine manja je od sume kvadrata odstupanja od bilo koje druge vrijednosti datog obilježja ili je jednaka toj sumi:

∑in(Xi−Xˉ)≤∑in(Xi−Xj)\sum_{i}^{n}({{X}_{i} - \bar{X}}) \le \sum_{i}^{n}({{X}_{i} - {X}_{j}}) i∑n​(Xi​−Xˉ)≤i∑n​(Xi​−Xj​)

gdje Xj{X}_{j}Xj​predstavlja bilo koju vrijednost datog obiljezja.

> #veličina uzorka
> n <- length(iznos.kredita)
> sko <- rep(NA, n)
> for	(i in 1:n) {
+ sko[i] <- sum((iznos.kredita - iznos.kredita[i])^2)
+ }
> sko < sum((iznos.kredita - mean(iznos.kredita))^2)
[1] FALSE FALSE FALSE FALSE FALSE

Geometrijska sredina je takođe mjera centralne tendencije koja se izračunava kao nnn-ti korijen proizvoda nnn vrijednosti nekog obilježja. Za razliku od aritmetičke sredine koja izražava apsolutne razlike između vrijednosti obilježja, geometrijska sredina izražava proporcionalne promjene između tih vrijednosti.

Geometrijska sredina negrupisanih podataka izračunava se po formuli:

G=X1X2...Xnn{G} = \sqrt[n]{X_1 X_2...X_n}G=nX1​X2​...Xn​​

dok se geometrijska sredina grupisanih podataka računa kao:

G=X1f1X2f2...Xnfnf1+f2+...+fn{G} = \sqrt[f_1+f_2+...+f_n]{{X_1}^{f_1} {X_2}^{f_2}...{X_n}^{f_n}}G=f1​+f2​+...+fn​X1​f1​X2​f2​...Xn​fn​​

gdje fif_ifi​ predstavljaju frekvencije vrijednosti XiX_iXi​.

Primjer 19: Dati su podaci o promjeni veličine portfolija stanovništva u posljednjih 5 mjeseci: +3%, -2%, +5%, +7% i +2%. Izračunati geometrijsku sredinu indeksa promjene portfolija sektora stanovništva.

> MoM <- c(3, -2, 5, 7, 2)
> indeks <- 100 + MoM 
> exp(mean(log(indeks)))
[1] 102.955
> #ili
> prod(indeks)^(1 / length(indeks))
[1] 102.955 

Ono što je interesantno napomenuti jeste to da je geometrijska sredina uvijek manja ili jednaka aritmetičkoj sredini.

U ostale mjere centralne tendencije spadaju modus i medijana. Često se nazivaju pozicione mjere centralne tendencije jer se određuju upravo na osnovu pozicije koju zauzimaju u okviru nekog obilježja.

Modus predstavlja onu vrijednost obilježja koja ima najveću frekvenciju pojavljivanja. Obilježja kod kojih se svaka vrijednost ponavlja tačno jedanput nemaju definisan modus. Za obilježja kod kojih dvije ili više vrijednosti imaju najveću frekvenciju pojavljivanja kažemo da su bimodalna ili multimodalna obilježja. Modus se može računati i za kvantitativna i za kvalitativna obilježja.

Medijana predstavlja onu vrijednost obilježja koja seriju dijeli na dva jednaka dijela kada su vrijednosti obilježja sortirane u rastućem nizu. U zavisnosti od načina računanja centralne vrijednosti obilježja medijana može biti tačna vrijednost obilježja ili neka interpolisana vrijednost između dvije centralne vrijednosti.

Kao i kod aritmetičke i geometrijske sredine i za modus i za medijanu postoje formule za njihovo računanje iz negrupisanih i grupisanih podataka.

Primjer 20: Dati su podaci o kamatnim stopama posljednjih 6 odobrenih kredita: 5%, 3.99%, 7.99%, 4.25%, 7.99%, 7.99%. Izračunati modus i medijanu datih podataka o kamatnim stopama.

> kamatna.stopa <- c(5, 3.99, 7.99, 4.25, 7.99, 7.99)
> #modus
> which(table(kamatna.stopa) == max(table(kamatna.stopa)))
7.99 
   4 
> #medijana
> median(kamatna.stopa)
[1] 6.495
> quantile(kamatna.stopa, prob = 0.5)
  50% 
6.495 

Modus grupisanih podataka može se izračunati po formuli:

Mo=L+f2f1+f2lM_o = L + \frac{f_2}{f_1+f_2} {l}Mo​=L+f1​+f2​f2​​l

gdje LLL predstavlja donju granicu modalnog intervala, f1f_1f1​ frekvenciju prethodnog grupnog intervala, f2f_2f2​ frekvenciju višeg intervala, dok lll predstavlja širinu intervala.

Medijana grupisanih podataka data je formulom:

Me=L+N2−f(k−1)flM_e = L + \frac{\frac{N}{2} - f_{(k-1)}}{f}{l}Me​=L+f2N​−f(k−1)​​l

gdje NNN predstavlja broj vrijednosti obilježja, f(k−1)f_{(k-1)}f(k−1)​ kumulativnu frekvenciju koja prethodi medijalnom intervalu, dok je fff stvarna frekvencija medijalnog intervala.

U praksi, računanje modusa i medijane iz grupisanih podataka vrlo rijetko se primjenjuje, s obzirom na to da su najčešće pojedinačni nizovi podataka dostupni.

Previous3. Deskriptivna statistika i grafičko predstavljanje podatakaNext3.2. Mjere varijabiliteta

Last updated 1 year ago

Was this helpful?