1. Inngangur

Tölfræði sem fræðigrein snýst um að vinna upplýsingar út frá tölulegum mælingum. Gróflega skiptist tölfræðin í tvo anga: að lýsa sem best þeim gögnum sem fyrirliggjandi eru og að draga ályktanir um almenna hópa eða þýði út frá mælingum á úrtaki. Í flestum tilfellum er unnið með mikið magn mælinga og því fer almenn tölfræði-og gagnavinnsla að mestu fram með aðstoð tölva. Sérhæfð tölfræðiforrit komu snemma fram á sjónarsviðið og eftir því sem að möguleikar þeirra, sem og reiknigeta tölva, jukust, varð beiting tölfræði víðfeðmari. Mikill fjöldi forrita eru sérsniðin fyrir tölfræði, bæði fyrir almenna og sértæka tölfræðiúrvinnslu. Þar ber helst að nefna R, S-Plus, SAS, STATA og SPSS sem öll hafa náð töluverðri útbreiðslu innan vissra geira. Einnig eru töflureiknar (t.d. Excel) mikið notaðir við tölfræðiúrvinnslu, en hafa skal þó í huga að töflureiknar eru almennt ekki ekki hannaðir sem tölfræðihugbúnaður. Mörg þessara forrita hafa það sammerkt að notkun þeirra er háð leyfi og notkun þeirra fyrir utan háskólaumhverfið takmörkuð sökum leyfisgjalda.

Nú í seinni tíð hefur aukist áhersla á þróun opins tölfræðihugbúnaðar, þ.e. hugbúnaðar sem byggist á forritunarkóða er opinber og aðgengilegur fyrir alla. Slíkur hugbúnaður er yfirleitt ókeypis og mjög sveigjanlegur. Eitt vinsælasta tölfræðiforritið í dag, R, er gott dæmi um þessa þróun. R sem hugbúnaður á rætur að rekja aftur til tilraunaverkefnis tveggja prófessora í tölfræði rétt fyrir aldamót. Prófessoranir tveir, Ross Ihaka og Robert Gentleman við háskólann í Auckland Nýja Sjálandi, þróuðu hugbúnaðinn fyrst til kennslu. Síðar vatt þróunin uppá sig, ekki síst vegna þess að hún var opin og í mikilli samvinnu við notendur. Í dag er R bæði forritunarmál-og umhverfi fyrir alla almenna tölfræði-og gagnavinnslu. Stór þáttur í vinsældum R umfram önnur tölfræðiforrit er sveigjanleiki og fjöldi viðbóta, svonefndra pakka, sem bæta og auka möguleika forritsins. R hefur því orðið á seinustu árum eitt helsta verkfæri tölfræðinga og nú orðið eru flestar tölfræðiaðferðir fyrst forritaðar fyrir R, áður en önnur forrit taka þau upp.

Fyrir þá sem hafa bakgrunn í forritun, þá tölum við oft jöfnum höndum um forritið R (forritið sem framkvæmir tölfræðiúrvinnsluna) og forritunarmálið R (skipanirnar sem að við gefum forritinu). Tölfræðiforritið R útfærir forritunarmál sem er sérsniðið fyrir tölfræði og gagnavinnslu. Ein af sérstöðum R sem forritunarmáls er að í því má finna sérsniðnar gagnategundir sem tengdar eru tölfræði. Þar má nefna flokkabreytur, talnabreytur og gagnatöflur, sambærilegar við töflur í gagnagrunni. Einnig er mikil áhersla lögð á myndræna framsetningu.

R er til fyrir helstu stýrikerfi, þ.e. Windows, MacOsX og Linux. Hráasta viðmót R er skipanalína, en fjöldinn allur af hjálparforritum hafa verið þróuð til þess að styðja við notkun á R með einum eða öðrum hætti. Slík forrit kallast notendaviðmót og má þar einna helst nefna RStudio, sem hefur síðastliðin ár orðið eitt vinsælasta viðmótið fyrir R. RStudio hefur, auk mikils stuðnings við R og R-skipanaskrár, innbyggð tól fyrir sjálfvirka skýrslugerð, skjalastjórnun og gagnvirka greiningu með R.

1.1. Um þessa bók

1.1.1. Um þessa bók

Þessi bók er skrifuð með það í huga að vera uppflettirit fyrir notendur sem eru að stíga sín fyrstu skref með R. Henni er því ekki ætlað að vera kennslubók í tölfræði. Gert er ráð fyrir að notandinn hafi annað hvort einhvern grunn í tölfræði eða geti aflað hans úr öðrum bókum.

Bókin ýtir notandanum af stað í R með því að kynna til sögunnar helstu grunnatriði og vísa svo veginn að frekara ýtarefni. Bókinni er skipt í þematengda kafla þar sem í hverjum kafla er inngangur um efnið og því næst eru tilteknar aðferðir kynntar með dæmum um notkun. Undir lok kaflanna eru, eftir atvikum, undirkaflar með frekari útvíkkunum. Þeir kaflar eru stjörnumerktir og er lesandanum óhætt að geyma þá kafla til síðari tíma án þess að það komi að sök við frekari lestur bókarinnar.

Í hvert sinn sem að ný aðferð (við munum ýmist nota orðin aðferð, fall eða skipun um R-skipanir) er kynnt til sögunnar verður yfirlit um helstu eiginleika hennar lýst með gulum kassa:

1.1.1.1. aðferð()

Athugið

Inntak: Með hverju á að mata aðferðina

Úttak: Hvað býr aðferðin til

Helstu stillingar: Hvað má fínstilla (ef við á)


Að því loknu taka við dæmi um beitingu aðferðarinnar í hvítum kössum:

aðferð sem hægt er  keyra í R

Allar skipanirnar byggja á aðgengilegum gögnum svo lesandinn getur hermt þær eftir á eigin tölvu til að dýpka skilninginn.

Við gerum ráð fyrir að notandinn hafi bæði forritin R og RStudio uppsett. Hægt er að nálgast R af slóðinni http://cran.hafro.is og RStudio af http://www.rstudio.com/ide/. Einnig má benda á að til eru fjölmörg kennslumyndbönd um notkun R en þau má finna á http://kennslubanki.hi.is

1.2. Hvernig virkar R?

Fyrir þá sem ekki eru vanir því að forrita getur R virst framandi við fyrstu sýn. Þá getur verið gott að hugsa um R sem tóman verkfærakassa sem við munum síðar fylla af alls konar hlutum. Þessir hlutir geta verið af ýmsu tagi, allt frá gögnum til grafa, greininga og aðferða, svo dæmi séu nefnd.

Í hvert sinn sem við komum að nýju verkefni er kassinn tómur. Síðan hefst vinnulotan okkar, þar sem við notum skipanir til að búa til nýja hluti í kassanum okkar. Í hvert sinn sem við framkvæmum skipun í R höfum við val um tvennt:

  • Að skipunin spýti hlutnum sem við bjuggum til á skjáinn okkar og eyði honum svo jafnóðum (hendi honum úr kassanum um leið).

  • Að skipunin visti hlutinn þannig að við getum nálgast hann aftur og unnið frekar með hann (geymi hann í kassanum).

Í hluta 1.4 förum við nánar í það hvernig skipanir virka.

R getur ekki vistað hluti nema þeir hafi eitthvað nafn. Það þýðir að allt í kassanum verður að hafa eitthvað heiti og gildir það jafnt um gögn sem aðferðir eða greiningar. Þegar við gefum hlut eitthvað heiti notum við ritháttinn:

\[\texttt{nafn <- skipun}\]

þar sem í stað nafn kemur nafnið sem við viljum gefa hlutnum og í stað skipun kemur sú skipun sem býr til hlutinn. Táknin þar á milli eru „minna en merkið“ og bandstrik. Skipunin getur samanstaðið af mörgum orðum svigum og alls kyns táknum. Ef við hins vegar skrifum bara skipunina, án þess að vista hana undir nafni, prentar R út það sem skipunin gerir á skjáinn, án þess að vista nokkuð.

Tveir ólíkir hlutir geta ekki haft sama nafnið. Ef við búum til hlut sem hefur sama nafn og hlutur sem við höfðum áður búið til þá hverfur gamli hluturinn og sá nýji kemur í hans stað. Í R er heldur enginn undo takki, þ.e.a.s. ekki er hægt að afturkalla skipanir með neinum hætti. Það þýðir að ef við höfum breytt einhverjum hlut er engin leið að afturkalla þá breytingu nema með því að búa hlutinn aftur til. Það er þó ekkert til að óttast svo framanlega sem við vöndum vinnulagið okkar í R. Það er umfjöllunarefni næsta hluta.

1.3. Vinnulag í R/RStudio

1.3.1. Vinnulag í R/RStudio

Í R er lítið um músasmelli heldur byggist úrvinnslan á því að gefa forritinu tilteknar skipanir sem það vinnur síðan úr. Það er hvort tveggja í senn, einn af stærstu kostum R en jafnframt sá eiginleiki sem fælir marga frá forritinu í upphafi.

Stærsti kosturinn við að gefa skipanir er sá að við getum skrásett nákvæmlega allar aðgerðir okkar og því getum við ekki einungis nákvæmlega endurtekið alla úrvinnslu heldur gert það með lítilli fyrirhöfn. Því margborgar sig að venja sig á skilvirkt vinnulag frá fyrsta degi þegar unnið er í R. Helsti gallinn við að gefa skipanir er sá að nöfnin á skipununum standa ekki á skjánum fyrir framan okkur heldur þurfum við að muna þær eða kunna að leita að þeim, en við munum koma að þessu síðar.

Afar mikilvægt atriði í góðu vinnulagi í R er að útbúa sérstaka möppu á tölvunni fyrir sérhvert verkefni, þar sem skipanaskrár, gagnasöfn og annað sem kemur að vinnslu í R eru geymd. Þessa mappa er kölluð vinnumappa.

Windows notendur þurfa að passa sig að nota ekki íslenska stafi né bil í heitinu á möppunni né geyma möppuna í möppum sem inniheldur íslenska stafi eða bil. Það er því ekki hægt að geyma möppuna í:

C\:kalli\My Documents\tolfraedi\Rverkefni

þar sem það er bil í My documents. Makka og Linux notendur þurfa ekki að hafa áhyggjur af þessu.

Til að vinna í R opnum við forritið RStudio. Rstudio keyrir R fyrir okkur og við þurfum að gæta þess að vera búin að hlaða R niður en við opnum R ekki sérstaklega.

Mynd

Í RStudio er viðmótinu skipt upp í fjóra glugga, eins og sjá má á myndinni hér fyrir ofan. Neðri vinstri glugginn er keyrsluglugginn, þar höfum við samskipti við R með því að slá inn skipanir. Þetta er staðurinn þar sem við búum til hluti og þar sem R sýnir okkur útkomur skipana þegar við biðjum um þær. Hér búum við til allt í verkfærakassanum okkar.

Efri vinstri glugginn er skipanaglugginn. Þar geymum við allar þær skipanir sem við mötum inn í keyrslugluggann. Í þessum glugga er ekkert framkvæmt, heldur skrifum við niður uppskriftir af hlutunum sem við búum til. Byrjendum finnst oft gott að prófa sig fyrst áfram í keyrsluglugganum og færa svo þær skipanir „sem virkuðu“ yfir í skipanagluggann. Þegar meiri færni er náð verður betra að vinna alfarið í skipanaglugganum og hlaða síðan skipununum inn í keyrslugluggann þegar við viljum sjá útkomur þeirra.

Skipanirnar sem við geymum í skipanaglugganum vistum við í sérstaka skrá, sem við köllum skipanaskrá. Skipanaskrá er alltaf lesin frá efstu línu og niður svo við þurfum að gæta þess að skrá þær skipanir sem við viljum framkvæma í réttri röð. Það að breyta hlut neðarlega í skipanaskrá hefur engin áhrif á þann hlut ofar í skránni. Á meðan við skráum alla þá úrvinnslu sem við viljum framkvæma í skipanaskránni þurfum við ekki að hafa nokkrar áhyggjur af því þó við framkvæmum mistök og eyðum út eða eyðileggjum hluti sem við vorum búin að búa til. Við lagfærum bara þá línu þar sem mistökin voru og keyrum allar skipanirnar aftur, frá efstu línu og niðurúr. Yfirleitt tekur það einungis örskotsstund.

Auðvelt er að senda línur úr skipanaskránni okkar í keyrslugluggann. Við staðsetjum bendilinn í þeirri línu sem við viljum flytja, höldum svo niðri + á MacOs en Ctrl + á Windows/linux. Þá afritast viðkomandi lína yfir í keyrslugluggann og skipunin er framkvæmd. Einnig er hægt að keyra alla skipanaskrána með því að smella á „source“ hnappinn efst í hægra horninu á skipanaglugganum.

Þið vitið eflaust að mismunandi tegundir af skrám hafa mismunandi endingar. Þannig er algengt að Word skrár hafi endinguna .docx og að Excel skrár hafi endinguna .xlsx. Skipanaskrár unnar í R hafa endinguna .R.

Í efri hægri glugganum eru tveir flipar. Í öðrum flipanum sjáum við vinnusvæðið okkar. Það eru allir þeir hluti sem búnir hafa verið til í vinnulotunni, hvort sem það eru gögn sem hafa verið lesið inn eða tölfræðilíkön sem hafa verið vistuð. Þetta er með öðrum orðum allt það sem við erum búin að búa til í verkfærakassanum okkar. Í hinum glugganum má sjá skipanasöguna okkar, þ.e. lista yfir þær skipanir sem keyrðar hafa verið í vinnulotunni.

Mynd
Mynd

Í neðri glugganum hægra meginn eru fimm flipar. Þar sjáum við myndir sem teiknaðar eru í R og hjálpina sem hægt er að kalla á fyrir R-skipanir. Hægt er að leita í hjálpinni með því að slá inn leitarorð í leitargluggann í horninu hægra meginn, en nánar verður fjallað um hjálpina í R síðar í kaflanum.

Mynd
Mynd

Það fyrsta sem við gerum þegar við opnum RStudio er að staðsetja okkur í réttri möppu, þ.e.a.s. vinnumöppunni okkar. Við staðsetjum okkur í réttri möppu með því að velja Session\(\rightarrow\) Set Working Directory \(\rightarrow\) Choose Directory og velja þar möppuna. Rstudio sýnir okkur þá innhald möppunnar í úttaksglugganum undir Files.

Mynd

Þegar RStudio er ræst í fyrsta skipti þarf að opna sérstaklega skipanaglugga með því að fara í File\(\rightarrow\) New Document\(\rightarrow\) R script. Þá birtist skipanagluggi á skjánum. Viljum við koma aftur að skipanaskrá sem viðhöfum áður unnið með förum við í Open í stað New Document.

1.3.1.1. Verkefnautanumhald í Rstudio

Þegar unnið er að fleiri en tveim úrvinnslum í einu og/eða við viljum koma að sömu úrvinnslu síðar meir getur Rstudio auðveldað okkur lífið enn frekar með því að skilgreina verkefni. Verkefni eru sérstakar skrár með endingunni „.Rproj“. Þær halda utan um vinnumöppu notandans, tryggja að ný (og hrein) vinnulota er ræst (þ.a. niðurstöður annarra reikninga trufli ekki þá sem notandinn vill vinna með) og opnar þær skrár sem notandinn var að vinna með seinast. Hægt er að hafa sértækar stillingar fyrir sérhvert verkefni sem og að hafa mörg verkefni opin í einu, eitt í hverjum glugga. Nýtt verkefni er stofnað með því að velja File\(\rightarrow\)New project og svo í framhaldinu velja viðeigandi hluti í valglugga sem þá birtist:

Mynd

Hér hefur notandinn möguleika á því að tengja verkefni við þrjár gerðir af vinnumöppum: A) nýja vinnumöppu, B) tengja við vinnumöppu sem er til og geymir gagnasett, og C) vinnumöppur sem tengjast skjalastjórnunarkerfunum git og svn. Sé ný vinnumappa valin þá fær notandinn val um skilgreina verkefnið betur svo að Rstudio geti sett verkefnið rétt upp:

Mynd

Lesendur þessarar bókar munu að öllum líkindum velja fyrst um sinn tómt verkefni (e. empty project). Hinir tveir valmöguleikarnir bjóða upp á stillingar fyrir pakkasmíði og gagnvirkt vefviðmót fyrir R-forrit. Sé tómt verkefni valið er notandinn beðinn um að finna stað fyrir verkefnið.

Mynd

Rstudio býr þá til nýtt verkefni á þeim stað. Þá verður til skrá með endinguna .Rproj, sé smellt á hana opnast R, með vinnumöppuna sem við tilgreindum í vinnulotunni og opnar þær skipanaskrár sem síðast voru opnar þegar við unnum í verkefninu.

1.3.1.2. Slökkt á Rstudio

Þegar slökkt er á Rstudio er notandinn spurður um óvistaðar skrár:

Mynd

Hér hefur notandinn ekki vistað skránna „analysis.R“, sem líkast til er æskilegt að gera. Hin skráin „Workspace image (.RData)“ geymir þá hluti sem eru til í vinnulotunni hjá notandanum. Mörgum þykir þægilegt að geyma vinnusvæðið milli vinnulota, sérstaklega ef þungir útreikningar liggja að baki þeirra. Hafa skal þó í huga að hlutir úr geymdu vinnusvæði geta truflað úrvinnslu og því er æskilegt að geyma ekki vinnusvæðið milli vinnulota. Einnig er það ekki æskilegt vegna rekjanleika, betra er að allir hlutir séu skilgreindar í skipanaskrá sem er svo keyrð þegar þarf.

1.4. Aðferðir/skipanir/föll

1.4.1. Aðferðir/skipanir/föll

1.4.1.1. help()

Athugið

Inntak: Nafn á falli

Úttak: Kallar fram hjálparsíðuna fyrir fallið

Helstu stillingar: package, help\(\_\)type


R hefur, eins og áður sagði, fjölda innbyggðra falla sem auðvelda notandanum að vinna með gögn auk þess sem auðvelt er fyrir notandann að smíða sín eigin föll. Til þess að fá yfirsýn yfir þessi innbyggðu föll hefur R innbyggða hjálp sem gefur okkur nánari upplýsingar um þá skipun/aðferð/fall sem við viljum fræðast meira um. Þannig gefur skipunin

help(read.table)

okkur nánari upplýsingar um skipunina read.table(). Nánari upplýsingar birtast þá í nýjum glugga á skjánum. Látið útlit hjálparinnar ekki fæla ykkur frá. Það er vissulega hrátt og gæti virst óskiljanlegt í fyrstu en læri maður að líta á úttakið réttum augum má finna þar miklar upplýsingar á fljótlegan hátt. Hjálpin í R fylgir eftirfarandi sniðmáti:

  • Efst, undir Description:, kemur stutt lýsing á skipuninni.

  • Þar á eftir kemur Usage: en þar sjást allar þær stillingar sem hægt er að gefa skipuninni. Yfirleitt eru flestar stillingarnar sjálfgefnar sem þýðir að ef við tilgreinum ekkert eru stillingarnar sjálfkrafa stilltar á algengustu gildin. Viljum við breyta einhverjum af stillingunum, þá tilgreinum við eingöngu þær stillingar sem við viljum breyta og hvaða gildi við viljum að séu á þeim stillingum.

  • Næst er komið að Arguments:. Þar eru allar mögulegar stillingar sýndar, hvaða gildi er hægt að gefa þeim og hvaða áhrif það hefur.

  • Details: gefur ítarlega lýsingu á þeirri „vinnu“ sem skipunin framkvæmir.

  • Value: útskýrir hvers lags útkoma kemur út úr skipuninni.

  • Undir Note: má finna ýmsar gagnlegar ábendingar.

  • Í References: eru heimildir sem aðferðin byggir á.

  • Oft reynast góðir molar í See Also:. Þar eru oft dæmi um aðrar skyldar aðferðir sem gætu reynst gagnlegar sem og heimasíður og fleira sem gæti komið að góðum notum.

  • Að lokum má sjá dæmi um beitingu aðferðinnar í Examples:. Verið óspör að prófa þau dæmi til að kynnast aðferðinni betur.

Stundum eru fleiri kaflar í hjálpinni en þetta eru þeir mikilvægustu.

1.4.1.3. RSiteSearch()

Athugið

Inntak: Efnisatriði innan gæsalappa

Úttak: Leitar að föllum á heimasíðu R

Helstu stillingar: restrict, sortby


Til að leita á heimasíðu R eftir efnisatriði má nota

RSiteSearch("efnisatridi")

sem gefur notandanum lista yfir pakka og föll sem til eru á heimasíðu R í nýjum vafraglugga.

1.4.1.4. apropos()

Athugið

Inntak: Textabrot innan gæsalappa

Úttak: Listi að föllum sem innihalda textabrotið


Ef allt annað bregst, en við munum part úr nafni fallsins, en þó ekki alveg allt, þá getum við notað fallið apropos. Það skilar lista af nöfnum falla sem hafa ákveðinn strenghluta, þ.e. nafnið á fallinu inniheldur þann textabút.

apropos('spss') ## skilar villu ef foreign pakkinn
## er ekki virkur i minni
library(foreign) ## pakki sem inniheldur read.spss fallid
apropos('spss')

Athugið að apropos skilar aðeins nöfnum falla sem eru í minni.

1.4.1.5. args()

Athugið

Inntak: Nafn á falli

Úttak: Inntak fallsins


Vilji notandinn aðeins skoða hver inntökin í fallið eru er hægt að nota fallið args:

args(mean)
## function (x, ...)
## NULL

1.5. R sem vasareiknir

Í R má framkvæma allar þær aðgerðir sem finna má á venjulegum vasareiknum. Þannig leggur skipunin

3+5
## [1] 8

einfaldlega saman tölurnar 3 og 5. Á sama hátt og við erum vön notum við mínus (-), margföldun (*) og deilingu (/).

Aðferðin ** hefur tölur í veldi. Skipunin

2**4
## [1] 16

reiknar því stærðina \(2^4\).

Aðferðin sqrt() tekur rótina af tölunum sem við mötum hana með

sqrt(9)
## [1] 3

skilar sem dæmi rótinni af 9.

R beitir réttri röð reikniaðgerða. Það er að segja, það byrjar á því að hefja í veldi eða taka rætur, því næst margfaldar það eða deilir og að lokum leggur það saman eða dregur frá. Gefum við því skipunina

3+5*4**2
## [1] 83

byrjar það á því að reikna \(4^2\) (16) síðan margfaldar það þá stærð með 5 (80) og leggur á endanum þrjá við (83).

Við notum sviga á sama hátt í R og hefðbundnum vasareiknum. Ef við notum sviga þá byrjar R á því að reikna stæðuna sem stendur innan svigans eins og við viljum. Gætið ykkar samt á því að R skilur ekki skipunina:

3(6-8/2)
## Error in eval(expr, envir, enclos): attempt to apply non-function

Ef við viljum margfalda töluna 3 við innihald svigans þá verðum við að muna eftir að setja margföldunarmerkið (*) á milli, þ.e. skrifa:

3*(6-8/2)
## [1] 6

Þessi skipun reiknar stærðina \(3 \cdot (6 - 8/2) = 3 \cdot (6-4) = 3\cdot 2\) og gefur því útkomuna 6.

Skipunin exp() hefur e í það veldi sem hún er mötuð með. Viljum við hefja \(e\) í veldið 3, þ.e.a.s. reikna \(e^3\) gefum við skipunina:

exp(3)
## [1] 20.08554

Skipunin log() tekur logarithma af því sem við mötum hana með. Gætið ykkar þó að sjálfgefna stillingin í R reiknar náttúrulega logarithmann (með grunntöluna \(e\)). Ef við viljum logarithma með grunntöluna 10 notum við stillinguna base=10. Þá myndum við gefa skipunina

log(33, base=10)
## [1] 1.518514

til að reikna log(33) svo dæmi sé nefnt.

Viljum við geyma niðurstöður reikninga, eða aðgerða almennt, má alltaf vista niðurstöðurnar sem hlut:

a <- 1 + 1
a
## [1] 2
b <- a + 1
b
## [1] 3

1.6. R-pakkar

1.6.1. R-pakkar

1.6.1.1. install.packages()

Athugið

Inntak: Nafn á pakka innan gæsalappa

Úttak: Pakki, og aðrir pakkar honum tengdur, er settur upp

Helstu stillingar: repos


R pakki er samansafn af aðferðum, oft sérsniðnar fyrir ákveðna gerð af tölfræðiúrvinnslu. Til eru ótalmargir pakkar fyrir nánast hvaða tölfræðiaðferð sem er og þykir nú regla fremur en undantekning að glænýjar tölfræðiaðferðir séu kynntar til leiks fyrir tölfræðiheiminum sem nýr R pakki. Þegar R er hlaðið niður í fyrsta skipti kemur það með fjöldanum öllum af svokölluðum grunnpökkum en þurfum við pakka sem ekki tilheyra þessum grunnpökkum þurfum við að hlaða þeim niður á tölvuna okkar með aðferðinni install.packages(). Það þarf aðeins að gera einu sinni á hverri tölvu. Viljum við t.d ná í ggplot2 pakkann gerum við það með skipuninni:

install.packages("ggplot2")

Ef við viljum svo vinna með aðferðirnar í tilteknum pakka þurfum við að láta R vita af því. Það þarf að gera í hvert sinn sem ný vinnulota hefst í R. Við gerum aðferðirnar úr pakkanum aðgengilegar með skipuninni:

library(ggplot2)

Við getum hugsað það sem svo að með skipuninni library() stingum við pakka í samband við verkfærakassann okkar til að hafa aðgang að þeim skipunum sem þar er að finna.

1.7. R á íslensku

Íslenskir stafir eru oft til vandræða þegar skjöl eru opnuð í annarri gerð af stýrikerfi en þau voru búin til. Niðurstaðan verður þá í þessa átt

../_images/stafirirugli.png

Ástæða þess er sú að stýrikerfi hafa enn ekki innleitt sameiginlegan staðal til að tákna stafi - og þessir staðlar eru ekki eingöngu ólíkir frá stýrikerfi til stýrikerfis, heldur einnig á milli tungumála- og heimshluta hjá sama stýrikerfi. Á íslenskum tölvum er algengast að latin-1 staðallinn notaður á Windows tölvum á meðan nýrri UTF-8 staðall er notaður á MacOSX/Linux tölvum.

Þegar skjöl birtast á þennan hátt er mikilvægt að vista ekki skjalið heldur fara beint í File\(\rightarrow\) Reopen with Encoding... og velja þá

  • ISO-8859-1 ef unnið er í MacOsX tölvu en skjalið var búið til í Windows tölvu.

  • UTF-8 ef unnið er í Windows tölvu en skjalið var búið til í MacOsX tölvu.

ef þið hyggist vinna áfram með skjalið borgar sig svo að fara í File\(\rightarrow\) Save with Encoding... og velja þar þann staðal sem tölvan ykkar notar.

Einnig lenda MacOsX notendur stundum í því að íslenskir stafir birtast rétt í .R skrám en rangt á gröfum. Það er hægt að laga með því að gefa skipunina

system("defaults write org.R-project.R force.LANG en_US.UTF-8")

og endurræsa svo Rstudio. Þá ættu íslensku stafirnir að birtast rétt. Þessa skipun þarf bara að gefa einu sinni á hverri tölvu, þ.e.a.s. ekki í hvert sinn sem R er ræst.

1.8. Gögn

Í þessari bók munum við notast við nokkur gagnasett. Gagnasettið sem við köllum konnun má finna í skránni skra sem hlaða niður hér:

linkur

Skráin inniheldur eftirfarandi breytur:

Breyta

Útskýring/gildi

is

Vannilla, Jarðaberja, Súkkulaði

ferdatimi_skoli

Tími í mínútum

styrikerfi_simi

Android eða iOS

ferdamati_skoli

Með einkabíl, Gangandi/skokkandi, Með strætó, Hjólandi/rafhlaupahjól, Á annan hátt

systkini_fjoldi

Fjöldi systkina

dyr

Ertu meira fyrir hunda eða ketti?

feministi

Ég er feministi: Rétt eða Rangt

staerdfraedi_gaman

Einkunn: 1-10

smjor_kostar

Hvað smjör kostar í bónus? kr.

napoleon_faeddur

Hvenær var Napóleon fæddur? ár

stefnumot

Á kaffihús, Á ísrúnt, Í fjallgöngu, í bíó

messi_staerd

Hvað er Messi stór?

kosid

Ég hef kosið: Rétt eða Rangt

Þessum gögnum var safnað saman í námskeiði við Háskóla Íslands árið 2024. Nemendur voru beðnir um að svara ýmsum skemmtilegum spurningum um lífið.

Í þessari bók verður einnig notað gagnasett sem heitir puls, puls gaganasettið má hlaða niður hér:

linkur

Skráin inniheldur eftirfarandi breytur:

Breyta

Útskýring/gildi

likamsraekt

Fjöldi klst. í líkamsræktar á viku

fyrriPuls

Fyrri púls, slög á mínútu

inngrip

sat_kyrr eða hljop

seinniPuls

Seinni púls, slög á mínútu

Í þessari bók verður einnig notað gagnasett sem heitir pokarotta, pokarotta gaganasettið má hlaða niður hér:

linkur

Skráin inniheldur eftirfarandi breytur:

Breyta

Útskýring/gildi

stadsetning

1 eða 2

tegund

Vic eða other

kyn

m eða f

aldur

ár

hofud_lengd

í mm

hofud_breidd

í mm

heildarlengd

í mm

lengd_skott

í mm

Þessum gögnum var safnað saman í námskeiði við Háskóla Íslands árið 2024. Nemendur voru beðnir um að svara ýmsum skemmtilegum spurningum um lífið.

Vistið skránar í vinnumöppunni á vélinni ykkar en forðist að opna hana í töflureikni, sér í lagi Excel, undarlegustu hlutir geta gerst! Ef þið viljið skoða skrána opnið hana frekar í ritl, t.d. Notepad eða TextEdit.

Við munum nota þessi sömu gögn í umfjöllun okkar um ályktunartölfræði. Við munum þá gera ráð fyrir að einstaklingarnir í gagnaskránni séu slembiúrtak úr stóru þýði nemenda og því getum við notað gögnin til að draga hinar ýmsu ályktanir um þýði nemenda.

Í þessari bók er einnig unnið mikið með gagnasettið kaupskra sem inniheldur upplýsingar kaupverð, dagsetningu kaupsamnings og staðsetningu fasteignar.

Kaupskrá má nálgast á: https://fasteignaskra.is/gogn/grunngogn-til-nidurhals/kaupskra-fasteigna/ Þar er einnig hægt að nálgast upplýsingar um allar breytur í kaupskra.

1.9. Leiksvæði fyrir R kóða

Hér fyrir neðan er hægt að skrifa R kóða og keyra hann. Notið þetta svæði til að prófa ykkur áfram með skipanir kaflans. Athugið að við höfum þegar sett inn skipun til að lesa inn puls gögnin sem eru notuð gegnum alla bókina.

# Gogn sott og sett i breytuna puls. puls <- read.table ("https://raw.githubusercontent.com/edbook/haskoli-islands/main/pulsAll.csv", header=TRUE, sep=";") # Setjid ykkar eigin koda her fyrir nedan: # Sem daemi, skipunin head(puls) skilar fyrstu nokkrar radirnar i gognunum # asamt dalkarheitum. head(puls)