9. Fervikagreining

Þið hafið séð ýmsar leiðir til að framkvæma tilgátupróf um meðaltöl þýða. Í kafla 8 voru skoðaðar ályktanir um meðaltal eins þýðis sem og hvernig bera má saman meðaltöl tveggja þýða. Við skulum aðeins rifja upp tvíhliða tilgátuprófin í seinna tilvikinu. Þá prófuðum við núlltilgátuna hvort meðaltal hópanna tveggja sé ólíkt. Eðlileg útvíkkun á þeirri athugun væri að spyrja sig: Hvað ef hóparnir væru fleiri? Í þeim tilvikum getum við ekki notað \(t\)-próf heldur styðjumst við við aðferð sem kallast fervikagreining (e. analysis of variance eða ANOVA).

Fervikagreining er ein af mest notuðu aðferðunum innan tölfræðinnar og til eru mörg tilbrigði hennar sem má laga að gífurlega mörgum ólíkum tilfellum. Í þessari bók munum við einungis skoða eitt tilbrigði hennar sem kallast einhliða fervikagreining (e. one-sided ANOVA). Henni beitum við á gögn sem eru úrtök úr tveimur eða fleiri þýðum og er algengt að nota orðið hópar þegar talað er um úrtökin. Aðferðin gengur út á að bera saman breytileika á gildum mælinga milli hópa annars vegar og innan hópa hins vegar. Út frá því er ályktað hvort meðaltölin séu ólík eða ekki. Fervikagreining gerir ráð fyrir að úrtökin séu slembiúrtök, að þau séu valin úr þýðum sem fylgja normaldreifingu og að dreifnin sé sú sama í öllum þýðum.

9.1. Einþátta fervikagreining

Við skulum byrja á því að skoða lítið dæmi þar sem fervikagreining er framkvæmd til að draga ályktanir um blóðþrýstingslyf.

Lyfjafyrirtæki nokkurt er að þróa ný blóðþrýstingslyf og í því samhengi var lítil tilraun framkvæmd. Átján einstaklingar tóku þátt í tilrauninni og var þeim skipt tilviljunakennt upp í þrjá hópa. Hópur eitt fékk lyf 1, hópur tvö lyf 2 og hópur þrjú fékk lyf 3. Blóðþrýstingur fólksins var mældur fyrir inntöku lyfsins og aftur eftir inntöku. Breytan sem við höfum áhuga á er breyting á blóðþrýstingi fyrir og eftir inntöku lyfsins. Meðalbreyting á blóðþrýstingi í hópunum þremur var reiknaður. Í öllum hópunum hafði blóðþrýstingurinn lækkað að meðaltali.

\[\begin{aligned} \text{Meðalbreyting hópur 1: } & \bar{x}_1 = 8.14\\ \text{Meðalbreyting hópur 2: } & \bar{x}_2 = 6.28\\ \text{Meðalbreyting hópur 3: } & \bar{x}_3 = 13.01\\\end{aligned}\]

Spurningin er nú hvort munur sé á lyfjunum. Það er hvort blóðþrýstingurinn lækki mismikið milli hópa. Við sjáum auðveldlega að meðaltölin hér að ofan eru ólík en eru þau nógu ólík til að við getum fullyrt að lyfin valdi mismikilli lækkun?

Byrjum á að skoða mælingarnar okkar myndrænt, sjá mynd 9.1. Á þeirri mynd má, auk mælinganna, sjá meðaltal hvers hóps (heilar línur) og sameiginlegt meðaltal allra mælinganna (brotalínur). Það er mikilvægt að dreifni hvers hóps fyrir sig sé ekki mjög ólík þar sem aðferðin gerir ráð fyrir að hún sé sú sama. Í þessu tilviki virðist dreifnin vera svipuð og því er viðeigandi að nota einhliða fervikagreiningu.

Gögn fyrir fervikagreiningu

Mynd 9.1: Gögn fyrir fervikagreiningu

Fervikagreining gengur út á að skipta heildarbreytileika á gildum mælinganna upp í breytileika milli hópanna annars vegar og breytileika innan hópanna hins vegar. Til þess reiknum við út svokallaðar fervikasummur.

9.1.1. Fervikasummur

Áður en við skoðum fervikasummurnar þurfum við að kynna nýjan rithátt til sögunnar sem algengt er að nota þegar unnið er með fervikagreiningu.

9.1.1.1. Ritháttur notaður í fervikagreiningu

Athugið

Eftirfarandi ritháttur er algengur í kennslubókum og ritum sem fjalla um fervikagreiningu.

\(y_{ij}:\) Við notum vísinn \(i\) til að tákna númer hóps og vísinn \(j\) til að tákna númer mælingu
innan hóps. \(y_{ij}\) er því mæling númer \(j\) úr hópi \(i\).
\(a:\) Við notum \(a\) til að tákna fjölda hópa.
\(n_i:\) Við notum \(n_i\) til að tákna fjölda mælinga í hópi \(i\).
\(N:\) Við notum \(N\) til að tákna heildarfjölda mælinga
\[N = n_1 + n_2 + ... + n_a\]
\(\bar{y}_{i.}:\) Við notum \(\bar{y}_{i.}\) til að tákna meðaltal fyrir hóp \(i\)
\[\bar{y}_{i.} = \frac{\sum_{j=1}^{n_i} y_{ij}}{n_i}\]
(9.1)
\(\bar{y}_{..}:\) Við notum \(\bar{y}_{..}\) til að tákna meðaltal allra mælinga (úr öllum hópum)
\[\bar{y}_{..} = \frac{\sum_{i=1}^{a}\sum_{j=1}^{n_i}y_{ij}}{N}\]
(9.2)

Við þurfum að reikna þrjár fervikasummur og eru þær táknaðar með \(SS_T\), \(SS_{Tr}\) og \(SS_E\). \(SS_{T}\) er heildarfervikasumman og er hún mælikvarði á heildarbreytileika gagnanna (e. total variation). \(SS_{Tr}\) er mælikvarði á breytileika milli hópanna (e. between treatments) þ.e. hversu breytileg eru meðaltöl hópanna. \(SS_E\) er mælikvarði á breytileika innan hópanna (e. within treatments eða error) það er að segja hversu mikið víkja mælingar innan hvers hóps frá meðaltali hópsins.

9.1.1.2. Fervikasummur í einhliða fervikagreiningu (Sums of squares in one-sided ANOVA)

Athugið

Fervikasummurnar eru reiknaðar með

\[\begin{aligned} SS_T = & \sum_{i = 1}^{a} \sum_{j = 1}^{n_i} (y_{ij} - \bar{y}_{..})^2\end{aligned}\]
(9.3)
\[\begin{aligned} SS_{Tr} = & \sum_{i = 1}^{a} n_i (\bar{y}_{i.} - \bar{y}_{..})^2\end{aligned}\]
(9.4)
\[\begin{aligned} SS_E = & \sum_{i = 1}^{a} \sum_{j = 1}^{n_i} (y_{ij} - \bar{y}_{i.})^2\end{aligned}\]
(9.5)

Heildarbreytileikanum má skipta upp í breytileika milli hópanna annars vegar og breytileika innan hópanna hins vegar eða

\[SS_T = SS_{Tr} + SS_E\]
(9.6)

Til að skilja jöfnur 9.3 - 9.5 betur skulum við skoða mynd 9.2. Á grafinu efst í vinstra horninu má sjá mælingarnar, \(y_{ij}\), meðaltöl innan hópanna, \(\bar{y}_{i.}\), (heilar línur) og heildarmeðaltalið, \(\bar{y}_{..}\), (brotalína). Hinar myndirnar þrjár lýsa myndrænt hvernig reikna á \(SS_T, SS_{Tr}\) og \(SS_E\). Þeir liðir sem jöfnurnar innihalda eru teiknaðir svartir en hinir liðirnir, sem jöfnurnar innihalda ekki, eru gráir.

Fervikasummur

Mynd 9.2: Fervikasummur

Sé jafna 9.3 og myndin efst í hægra horninu skoðuð má sjá að \(SS_T\) inniheldur fjarlægðir mælinganna okkar frá heildarmeðaltalinu og er því mælikvarði á heildarbreytileika mælinganna. Sé jafna 9.4 og myndin neðst í vinstra horninu skoðuð má sjá að \(SS_{Tr}\) inniheldur fjarlægðir meðaltala hópanna frá heildarmeðaltalinu og er því mælikvarði á breytileika meðaltalanna milli hópanna. Sé að lokum jafna 9.5 skoðuð og myndin neðst í hægra horninu má sjá að \(SS_E\) inniheldur fjarlægðir mælinganna frá meðaltali þess hóps sem þær tilheyra og er því mælikvarði á breytileika mælinganna innan hvers hóps.

Algengt er að setja kvaðratsummurnar upp í svokallaða fervikagreiningartöflu (e. ANOVA table). Sú tafla samanstendur af þremur dálkum og þremur línum. Fyrsti dálkurinn inniheldur fervikasummurnar (reiknaðar með jöfnum 9.3 - 9.5). Annar dálkurinn inniheldur fjölda frígráða fyrir hverja fervikasummu fyrir sig en það heiti bera stærðirnar \(a-1\), \(N-a\) og \(N-1\). Þriðji dálkurinn inniheldur svokallaðar meðalfervikasummur. Þær reiknum við með því að deila viðkomandi fervikasummu með fjölda frígráða sem henni tilheyra (í sömu línu). Dæmigerða fervikasummutöflu má sjá hér að neðan.

Fervikasummur Frígráður Meðalfervikasummur
\(SS_{Tr}\) \(a - 1\) \(MS_{Tr} = \frac{SS_{Tr}}{a - 1}\)
\(SS_E\) \(N - a\) \(MS_E = \frac{SS_E}{N - a}\)
\(SS_T\) \(N - 1\)  

9.1.2. Tilgátupróf í fervikagreiningu

Tilgátuprófið sem við notum í fervikagreiningu gerir ráð fyrir að dreifnin í hópunum sé sú sama. Áður en við framkvæmum prófið þurfum við því að kanna hvort gögnin okkar uppfylli það skilyrði. Það eru til próf sem kanna þetta formlega, svo sem Levene próf en hér munum við láta okkur nægja að skoða gögnin myndrænt og út frá því álykta hvort gera megi ráð fyrir að dreifni hópanna sé sú sama.

9.1.2.1. Tilgátupróf fyrir einhliða fervikagreiningu

Athugið

Tilgátan sem við viljum kanna er almennt

\[H_0: \mu_1 = \mu_2 = ... = \mu_a\]

á móti gagntilgátunni

\[H_1: \text{Að minnsta kosti eitt meðaltal er frábrugðið hinum}\]

Prófstærðin er

\[F = \frac{SS_{Tr}/(a-1)}{SS_{E}/(N-a)} = \frac{MS_{Tr}}{MS_E}\]
(9.7)

þar sem \(SS_{Tr}\) og \(SS_{E}\) má reikna með jöfnum 9.4 og 9.5. Sé núlltilgátan sönn fylgir prófstærðin F-dreifingu með \(a-1\) og \(N-a\) fjölda fríráða, eða \(F \sim F_{(a-1,N-a)}\), þar sem \(a\) er fjöldi hópa og \(N\) er heildarfjöldi mælinga.

Hafna skal \(H_0\) ef \(F > F_{1-\alpha,(a-1,N-a)}\).

Sé núlltilgátunni hafnað er a.m.k. eitt meðaltalanna frábrugðið hinum.


Eins og sjá má hér að ofan er gagntilgátan sú að að minnsta kosti eitt meðaltal sé frábrugðið hinum. Það eru því einu upplýsingarnar sem við fáum þegar núlltilgátunni er hafnað. Við vitum ekki hvert meðaltalanna er frábrugðið hinum eða hvort þau séu mögulega öll frábrugðin hvort öðru. Það þarf að framkvæma frekari greiningu til að komast að því. Algeng próf eru Tukey’s próf og Duncan’s próf en ekki verður fjallað um þau hér.

Í upphafi kaflans sögðum við að fervikagreining gengi út á að bera saman breytileika milli hópa og breytileika innan hópa. Sé jafna 9.7 skoðuð má sjá að teljari prófstærðarinnar (fyrir ofan strik) er mælikvarði á breytileika milli hópanna og nefnarinn (fyrir neðan strik) er mælikvarði á breytileika innan hópanna. Sé þetta hlutfall nægilega hátt, fellur það á höfnunarsvæðið og við ályktum að meðaltölin séu ólík.

9.1.2.2. Sýnidæmi: Fervikagreining

Ábending

Skoðum dæmið um blóðþrýstingslyfin. Gögnin má sjá hér að neðan.

Lyf 1 Lyf 2 Lyf 3
4.29 10.32 12.89
11.28 3.23 15.68
5.37 4.51 16.03
7.89 4.57 9.43
8.10 8.85 12.86
11.93 6.23 11.15

Kannið með viðeigandi tilgátuprófi hvort munur sé á meðalblóðþrýstingi eftir lyfjum.

Förum nú eftir samantektinni um framkvæmd tilgátuprófa.

  1. Við ætlum að álykta um mun á meðaltölum þriggja þýða. Úrtökin eru óháð. Sé mynd 9.1 skoðuð má sjá að dreifni hópanna er svipuð og því óhætt að nota fervikagreiningu.

  2. Við notum \(\alpha = 0.05\) að venju.

  3. Tilgáturnar eru

    \[H_0: \mu_1 = \mu_2 = \mu_3\]

    og

    \[H_1: \text{a.m.k. eitt meðaltal er frábrugðið hinum.}\]
  4. Áður en við reiknum prófstærðina þurfum við að reikna fervikasummurnar.

    Þar sem hóparnir eru 3 er \(a = 3\). Það eru sex mælingar í hverjum hóp og því er \(n_1 = n_2 = n_3 = 6\) og því er \(N = 6 + 6 + 6 = 18\). Reiknum nú heildarmeðaltalið með jöfnu 9.2

    \[\bar{y}_{..} = \frac{\sum_{i=1}^{a}\sum_{j=1}^{n_i}y_{ij}}{N} = \frac{4.29+10.32+12.89+11.28+...+11.15}{18} = 9.15\]

    og meðaltöl innan hópanna með jöfnu 9.1

    \[\bar{y}_{1.} = \frac{\sum_{j=1}^{n_1} y_{1j}}{n_1} = \frac{4.29+11.28+...+11.93}{6} = 8.14,\]
    \[\bar{y}_{2.} = \frac{\sum_{j=1}^{n_2} y_{2j}}{n_2} = \frac{10.32+3.23+...+6.23}{6} = 6.29,\]
    \[\bar{y}_{3.} = \frac{\sum_{j=1}^{n_3} y_{3j}}{n_3} = \frac{12.89+15.68+...+11.15}{6} = 13.01\]

    Þá erum við tilbúin til að reikna fervikasummurnar. Við byrjum á að reikna \(SS_T\) með jöfnu 9.3

    \[\begin{aligned} SS_T = & \sum_{i = 1}^{a} \sum_{j = 1}^{n_i} (y_{ij} - \bar{y}_{..})^2 \\ = & (4.29-9.15)^2 + (11.28-9.15)^2 + ... + (11.15-9.15)^2 = 262.16 \end{aligned}\]

    Reiknum svo \(SS_{Tr}\) með jöfnu 9.4

    \[\begin{aligned} SS_{Tr} = & \sum_{i = 1}^{a} n_i (\bar{y}_{i.} - \bar{y}_{..})^2 \\ = & 6\cdot(8.14 - 9.15)^2 + 6\cdot(6.29 - 9.15)^2 + 6\cdot(13.01 - 9.15)^2 = 144.53 \end{aligned}\]

    Að lokum getum við reiknað \(SS_E\) með hjálp jöfnu 9.6

    \[SS_E = SS_{T} - SS_{Tr} = 117.63\]

    Setjum nú fervikasummurnar í fervikagreiningartöflu:

    Fervikasummur Frígráður Meðalfervikasummur
    \(SS_{Tr}\) = 144.53 \(a - 1\) = 2 \(MS_{Tr} = 72.27\)
    \(SS_E\) = 117.63 \(N - a\) = 15 \(MS_E = 7.84\)
    \(SS_T\) = 262.16 \(N - 1\) = 17  

    Til að kanna tilgátuna setjum við inn í prófstærðina í jöfnu 9.7

    \[f = \frac{72.27}{7.84} = 9.21\]
  5. Við þurfum að finna höfnunarsvæðið og notum við til þess F-töflu. Við flettum upp eftir \(a - 1\) = 2 og \(N - a\) = 15 frígráðum. \(F_{1-\alpha,((a-1),(N-a))}\) = \(F_{0.95,(2,15)}\) = 3.68. Við sjáum að \(f > 3.68\) og því lendir prófstærðin á höfnunarsvæði.

  6. Við höfnum núlltilgátunni og ályktum að a.m.k. eitt lyfjanna sé frábrugðið hinum.

9.2. Dæmi

9.2.1. Dæmi

Tóti tölfræðingur ætlar að bera saman meðaltöl fjögurra hópa með því að nota fervikagreiningu. Hann hefur 8 mælingar í hverjum hópi. Hann ætlar að nota \(\alpha = 0.05\). Hvert er höfnunarsvæðið?

9.2.2. Dæmi

Neytendasamtökin ákváðu að standa fyrir rannsókn þar sem þrjár mismunandi tegundir af lyftidufti voru bornar saman í þeim tilgangi að athuga hvort munur væri á lyftiduftunum. Rannsóknin fór þannig fram að fimm mismunandi uppskriftir voru notaðar sem allar innihéldu lyftiduft og voru þær allar bakaðar með mismunandi lyftiduftstegundum. Rúmmál kakanna var í lokinn mælt og skráð í töflu. Niðurstöðurnar voru eftirfarandi:

Lyftiduft 1 Lyftiduft 2 Lyftiduft 3
83 65 92
90 82 102
96 90 106
83 65 82
77 72 97

Eftirfarandi stærðir voru einnig reiknaðar: \(SS_{T} = 2149.73\) og \(SS_{Tr} = 1103.33\). Kannið með viðeigandi tilgátuprófi hvort munur sé á lyftiduftunum. Notið \(\alpha = 0.05\).

9.2.3. Dæmi

Kennslufræðingur nokkur ákvað að gera könnun á hvort munur sé á lærdómi eftir bakgrunnshljóðum. Hún skipti 24 nemendum tilviljunarkennt upp í þrjá hópa og fengu þeir allir texta til að lesa í 30 mínútur. Fyrsti hópurinn las textann á meðan spilaður var tónn við sama styrk í þessar 30 mínútur. Hópur númer tvö las textann á meðan hljóð við misjafnan styrk var spilað. Þegar þriðji hópurinn las textann var ekkert bakgrunnshljóð. Að loknum þessum 30 mínútum var lagt próf fyrir nemendurna og niðurstöðurnar skráðar. Að þessu loknu reiknaði kennslufræðingurinn fervikasummurnar út en náði ekki að klára að fylla út fervikasummutöfluna. Kannið hvort munur sá á lærdómi eftir bakgrunnshljóðum. Notið \(\alpha = 0.05\).

  Fervikasumma Frígráður Meðalfervikasumma
Milli hópa 30.08    
Innan hópa      
Heild 117.96    

9.2.4. Dæmi

Linda lífefnafræðingur ætlar að bera saman meðaltöl 3 hópa og ákvað því að framkvæma fervikagreiningu. Linda byrjaði á að fylla út fervikasummutöflu en náði ekki að klára hana. Töfluna má sjá hér að neðan.

  Fervikasumma Frígráður Meðalfervikasumma
Milli hópa 112.17    
Innan hópa     xxx
Heild 223.91 23  
  1. Hvaða gildi á að standa þar sem stendur xxx í töflunni?
  2. Hvert er gildið á prófstærð Lindu lífefnafræðings?