1.2. Manipulacije i agregacije podataka
Tokom analiza podataka čest slučaj je da nad sirovim, prikupljenim podacima treba izvršiti određene manipulacije, kao što su rekodiranje (zamjena određenih vrijednosti unutar vektora novim vrijednostima), transponovanje (zamjena kolona i redova data framea), podjela podataka po grupama itd. R i u tom dijelu ima veoma dobro razvijene i već ugrađene funkcije. Primjeri rekodiranja, transponovanja i podjele obilježja po grupama prikazani su narednim blokom R koda.
Primjer 9:
Agregacije podataka najčešće predstavljaju prvi korak u samom procesu analize ispitivane pojave. Kako je R prvenstveno namijenjen statističkim analizama, to ne iznenađuje činjenica da osnovna R konfiguracija već sadrži veliki broj funkcija koje je moguće koristiti u ove svrhe. Sve veći i češći zahtjevi za analizu i manipulaciju velikim brojem podataka doveli su do razvoja novih R paketa koji pružaju mogućnost korišćenja naprednijih funkcija za agregaciju podataka. Sljedeći primjeri daju pregled nekih agregacionih funkcija.
Generišemo vještački data frame (DF
) dimenzija 100000 redova i 3 kolone:
Primjer 10:
Sumiramo vrijednosti obilježja y
i z
:
Izračunamo aritmetičku sredinu obilježja y za različite modalitete obilježja x
koristeći neke od bazičnih funkcija:
Iste procedure mogu biti odrađene korišćenjem funkcija iz pojedinih R paketa. Prvo, ukoliko paket već nije instaliran, neophodno ga je instalirati. Instalacija dodatnih paketa može biti odrađena preko:
1) R menija praćenjem sljedećih koraka: i) pokrenuti instalaciju:
ii) izabrati CRAN server
iii) izabrati paket koji zelite instalirati i pritisnuti OK:
2) direktno iz konzole pozivanjem funkcije install.packages
i odabirom servera sa kojeg će paket biti instaliran; nakon instalacije neophodno je učitati instalirani paket u R okruženje, korišćenjem funckije library
kako bi funkcije iz paketa bile dostupne.
Primjer 11:
Primjer 12 (agregacija podataka):
Pored velikog broja agregacionih funkcija nekog obilježja po određenim modalitetima, R ima razvijene i procedure za repetitivne zadatke. Tako najčešće korišćene procedure jesu for
, while
i repeat
.
Primjer 13:
Funkcije koje u izvornom kodu imaju neku od repetitivnih funkcija, a već su dio osnovne R konfiguracije, spadaju u grupu često upotrebljavanih funkcija. Najpoznatije među njima su funckije iz apply
familije.
Primjer 14:
Last updated
Was this helpful?