11. Tvíkosta aðhvarfsgreining

Í kafla 10 kynntumst við því hvernig línuleg aðhvarfsgreining er framkvæmd til að kanna samband svarbreytu og skýribreytu hennar. Línulegri aðhvarfsgreiningu má einungis beita þegar svarbreytan er samfelld en er ekki boðleg þegar svarbreytan er mjög strál. Hins vegar er afar algengt að verkefni okkar fjalli um strjálar svarbreytur og þá sérstaklega tvíkosta breytur (e. binary variables), en svo kallast breytur sem taka einungis tvö gildi. Í þeim tilvikum kemur tvíkosta aðhvarfsgreining (e. logistic regression) til bjargar.

Við byrjum á að kynnast fræðilegri undirstöðu tvíkosta aðhvarfsgreiningarlíkansins og þá sérstaklega ákveðið tengifall (e. link function) sem á ensku kallast the logit function í kafla 11.1. Í kafla 11.3 munum við framkvæma tvíkosta aðhvarfsgreiningu þar sem skýribreytan er líka strjál og sjá hvernig gagnlíkindahlutföll skjótast út úr líkaninu. Í kafla 11.2 munum við gera slíkt hið sama fyrir samfelldar skýribreytur. Að lokum verður fjallað um hvernig reikna má líkur út frá metnum stikum í tvíkosta aðhvarfsgreiningarlíkani í kafla 11.4.

11.1. Tvíkosta aðhvarfsgreiningarlíkanið

11.1.1. Tvíkosta aðhvarfsgreiningarlíkanið

Í tvíkosta aðhvarfsgreiningu gerum við ráð fyrir að gildin tvö sem svarbreytan getur tekið séu gildin 0 og 1, þ.e.a.s. talan núll stendur fyrir annan möguleikann en talan einn hinn. Til samanburðar gat svarbreytan í línulegri aðhvarfsgreiningu tekið hvaða gildi sem er. Í línulegri aðhvarfsgreiningu lýstum við sambandi svarbreytu og skýribreytu með jöfnu beinnar línu, \(y = \beta_0 + \beta_1 x\) (jafna 4.10). Sú framsetning er hins vegar ótæk þegar útkoman er tvíkosta, því þá eru útkomurnar víðsfjarri því að detta á beina línu, gildið á \(y\) ás er annað hvort núll eða einn og ekkert þar á milli.

Ein leið til að brúa þetta bil er með aðstoð svokallaðs tengifalls (e. link funcion). Algengast er að nota ákveðið tengifall sem á ensku kallast logistic fallið en ekki hefur gengið vel að þýða á íslensku.

11.1.1.2. Tvíkosta aðhvarfsgreiningarlíkanið (logistic regression model)

Athugið

Tvíkosta aðhvarfsgreiningarlíkanið er

\[\log \left( \frac{p}{1-p} \right) = \beta_0 + \beta_1 x + \varepsilon\]
(11.3)

þar sem \(p\) eru líkurnar á því að svarbreytan taki gildið 1.


Takið eftir því að á vinstri hlið jöfnu 11.3 stendur lógarithminn af stærðinni \(\frac{p}{1-p}\) sem er einmitt gagnlíkindin á því að svarbreytan taki gildið 1. Gagnlíkindum kynntumst við í kassa 4.5.2.1 í kafla 4.5.2.

11.2. Tvíkosta aðhvarfsgreining með samfelldri skýribreytu

11.2.1. Tvíkosta aðhvarfsgreining með samfelldri skýribreytu

11.2.1.1. Tvíkosta aðhvarf með samfelldri skýribreytu (logistic regression with a continuous explanatory variable)

Athugið

Gerum ráð fyrir að sambandi skýribreytunnar \(x\) og því svarbreyta taki gildið 1 megi lýsa með tvíkosta aðhvarfsgreiningarlíkaninu

\[\log \left( \frac{p}{1-p} \right) = \beta_0 + \beta_1 x + \varepsilon\]

Þá er gagnlíkindahlutfallið á því að svarbreytan taki gildið 1 fyrir hverja \(a\) eininga hækkun á skýribreytunni metið með \(e^{\hat \beta_1 a}\).


11.2.1.2. Sýnidæmi: Tvíkosta aðhvarfsgreining með samfelldri skýribreytu

Ábending

Jói kannar hvort nemendur sem stunda mikla líkamsrækt séu líklegri til að reykja heldur en þeir sem stunda litla líkamsrækt. Hann metur tvíkosta aðhvarfsgreiningarlíkan til að kanna sambandið þar sem skýribreytan er fjöldi klukkustunda sem nemendur stunda líkamsrækt á viku. Hann mat stuðlana sem

\[\begin{aligned} \hat \beta_0 &= -1.7428, \\ \hat \beta_1 &= -0.1164 \end{aligned}\]

Hvert er gagnlíkindahlutfall þess að nemandi sem stundar líkamsrækt í 8 klukkustundir á viku reyki sígarettur á móti þeim sem stundar líkamsrækt í 5 klukkustundir á viku?

Fyrri nemandinn stundar \(8-5 = 3\) klukkustundum meiri líkamsrækt í viku heldur en sá seinni. Því er gagnlíkindahlutfall þess að hann reyki á móti hinum nemandanum gefið með

\[e^{\hat \beta_1} = e^{-0.1164 \cdot 3 } = e^{-0.3492 } = 0.7052521\]

Þar sem gagnlíkindahlutfallið er minna en einn minnka líkurnar á því að nemendur reyki eftir því sem þeir stunda meiri líkamsrækt.

11.3. Tvíkosta aðhvarfsgreining með strjálli skýribreytu

11.3.1. Tvíkosta aðhvarfsgreining með strjálli skýribreytu

Þegar skýribreyta tvíkostaaðhvarfsgreiningarlíkans er strál er litið á einn flokk breytunnar sem viðmiðunarflokk en stuðlar líkansins meta frávik frá þessum viðmiðunarflokki.

11.3.1.1. Tvíkosta aðhvarf með strjálli skýribreytu (logistic regression with a discrete explanatory variable)

Athugið

Gerum ráð fyrir að sambandi skýribreytunnar \(x\) og því svarbreyta taki gildið 1 megi lýsa með tvíkosta aðhvarfsgreiningarlíkaninu

\[\log \left( \frac{p}{1-p} \right) = \beta_0 + \beta_a I_{x=a} + \varepsilon\]

þar sem \(I_{x=a}\) er 1 ef \(x=a\) en núll annars. Þá er gagnlíkindahlutfallið á því að svarbreytan taki gildið 1 þegar skýribreytan \(x\) tekur gildið \(a\) á móti því þegar hún tekur viðmiðunargildið metið með \(e^{\hat \beta_a}\).


11.3.1.2. Sýnidæmi: Tvíkosta aðhvarfsgreining með strjálli skýribreytu

Ábending

Guðný kannar hvort nemendur sem drekka áfengi séu líklegri til að reykja heldur en þeir sem ekki drekka áfengi. Hún metur tvíkosta aðhvarfsgreiningarlíkan til að kanna sambandið og metur gildi stuðlanna sem

\[\begin{aligned} \hat \beta_0 &= -4.248, \\ \hat \beta_a &= 2.235 \end{aligned}\]

Þeir nemendur sem ekki drukku áfengi töldust til viðmiðunarflokksins. Hvert er gagnlíkindahlutfall þess að nemandi sem drekkur áfengi reyki sígarettur á móti þeim sem ekki drekkur áfengi?

Gagnlíkindahlutfall þess að nemandi sem drekkur áfengi reyki sígarettur á móti þeim sem ekki drekkur áfengi er gefið með

\[e^{\hat \beta_a} = e^{2.235} = 9.346482\]

Þar sem gagnlíkindahlutfallið er stærra en einn eru nemendur sem drekka áfengi líklegri til að reykja heldur en þeir sem ekki drekka áfengi.

11.4. Líkur í tvíkosta aðhvarfsgreiningu

11.4.1. Líkur í tvíkosta aðhvarfsgreiningu

11.4.1.1. Tvíkosta aðhvarf og líkur (logistic regression and probability)

Athugið

Gerum ráð fyrir að sambandi skýribreytunnar \(x\) og því svarbreyta taki gildið 1 megi lýsa með tvíkosta aðhvarfsgreiningarlíkaninu

\[\log \left( \frac{p}{1-p} \right) = \beta_0 + \beta_1 x + \varepsilon\]

Þá eru líkurnar á því að svarbreytan taki gildið 1 þegar gildi skýribreytunnar er \(x\) eru gefnar með

\[\hat p = \frac{e^{\hat \beta_0 + \hat \beta_1 x}}{1 + e^{\hat \beta_0 + \hat \beta_1 x }}\]
(11.4)

ef skýribreytan er samfelld en

\[\hat p = \frac{e^{\hat \beta_0 + \hat \beta_a I_{x=a}}}{1 + e^{\hat \beta_0 + \hat \beta_a I_{x=a} }}\]
(11.5)

ef skýribreytan er strjál.


11.4.1.2. Sýnidæmi: Líkur í tvíkosta aðhvarfsgreiningu með samfelldri skýribreytu

Ábending

Jói kannar hvort nemendur sem stunda mikla líkamsrækt séu líklegri til að reykja heldur en þeir sem stunda litla líkamsrækt. Hann metur tvíkosta aðhvarfsgreiningarlíkan til að kanna sambandið þar sem skýribreytan er fjöldi klukkustunda sem nemendur stunda líkamsrækt á viku. Hann mat stuðlana sem

\[\begin{aligned} \hat \beta_0 &= -1.7428, \\ \hat \beta_1 &= -0.1164 \end{aligned}\]

Hverjar eru líkur þess að nemandi sem stundar líkamsrækt í 8 klukkustundir á viku reyki sígarettur? En nemanda sem stundar líkamsrækt í 5 klukkustundir á viku?

Líkur þess að nemandi sem stundar líkamsrækt í 8 klukkustundir á viku reyki sígarettur eru gefnar með

\[\begin{aligned} \hat p &= \frac{e^{\hat \beta_0 + \hat \beta_1 \cdot 8}}{1 + e^{\hat \beta_0 + \hat \beta_1 \cdot 8 }} \\ &= \frac{e^{ -1.7428 -0.1164 \cdot 8}}{1 + e^{ -1.7428 -0.1164 \cdot 8}} \\ &= 0.0645251 \end{aligned}\]

Líkur þess að nemandi sem stundar líkamsrækt í 5 klukkustundir á viku reyki sígarettur eru gefnar með

\[\begin{aligned} \hat p &= \frac{e^{\hat \beta_0 + \hat \beta_1 \cdot 5}}{1 + e^{\hat \beta_0 + \hat \beta_1 \cdot 5 }} \\ &= \frac{e^{ -1.7428 -0.1164 \cdot 5}}{1 + e^{ -1.7428 -0.1164 \cdot 5}}\\ &= 0.08908976 \end{aligned}\]

11.4.1.3. Sýnidæmi: Líkur í tvíkosta aðhvarfsgreiningu með strjálli skýribreytu

Ábending

Guðný kannar hvort nemendur sem drekka áfengi séu líklegri til að reykja heldur en þeir sem ekki drekka áfengi. Hún metur tvíkosta aðhvarfsgreiningarlíkan til að kanna sambandið og metur gildi stuðlanna sem

\[\begin{aligned} \hat \beta_0 &= -4.248, \\ \hat \beta_a &= 2.235 \end{aligned}\]

Þeir nemendur sem ekki drukku áfengi töldust til viðmiðunarflokksins. Hverjar eru líkur þess að nemandi sem drekkur áfengi reyki sígarettur? Hverjar eru líkurnar á því að nemandi sem drekkur ekki áfengi reyki sígarettur

Líkur þess að nemandi sem drekkur áfengi reyki sígarettur eru gefnar með

\[\begin{aligned} \hat p &= \frac{e^{\hat \beta_0 + \hat \beta_a I_{x=a}}}{1 + e^{\hat \beta_0 + \hat \beta_a I_{x=a} }} \\ &= \frac{e^{-4.248 + 2.235}}{1 + e^{-4.248 + 2.235}} \\ &= 0.1178447 \end{aligned}\]

Þar sem nemendur sem drekka ekki áfengi tilheyra viðmiðunarhópnum er \(I_{x=a}=0\) og því eru líkur þess að þeir reyki sígarettur gefnar með

\[\begin{aligned} \hat p &= \frac{e^{\hat \beta_0 }}{1 + e^{\hat \beta_0 }} \\ &= \frac{e^{-4.248 }}{1 + e^{-4.248 }} \\ &= 0.01409139 \end{aligned}\]