11. Tvíkosta aðhvarfsgreining
Í kafla 10 kynntumst við því hvernig línuleg aðhvarfsgreining er framkvæmd til að kanna samband svarbreytu og skýribreytu hennar. Línulegri aðhvarfsgreiningu má einungis beita þegar svarbreytan er samfelld en er ekki boðleg þegar svarbreytan er mjög strál. Hins vegar er afar algengt að verkefni okkar fjalli um strjálar svarbreytur og þá sérstaklega tvíkosta breytur (e. binary variables), en svo kallast breytur sem taka einungis tvö gildi. Í þeim tilvikum kemur tvíkosta aðhvarfsgreining (e. logistic regression) til bjargar.
Við byrjum á að kynnast fræðilegri undirstöðu tvíkosta aðhvarfsgreiningarlíkansins og þá sérstaklega ákveðið tengifall (e. link function) sem á ensku kallast the logit function í kafla 11.1. Í kafla 11.3 munum við framkvæma tvíkosta aðhvarfsgreiningu þar sem skýribreytan er líka strjál og sjá hvernig gagnlíkindahlutföll skjótast út úr líkaninu. Í kafla 11.2 munum við gera slíkt hið sama fyrir samfelldar skýribreytur. Að lokum verður fjallað um hvernig reikna má líkur út frá metnum stikum í tvíkosta aðhvarfsgreiningarlíkani í kafla 11.4.
11.1. Tvíkosta aðhvarfsgreiningarlíkanið
11.1.1. Tvíkosta aðhvarfsgreiningarlíkanið
Í tvíkosta aðhvarfsgreiningu gerum við ráð fyrir að gildin tvö sem svarbreytan getur tekið séu gildin 0 og 1, þ.e.a.s. talan núll stendur fyrir annan möguleikann en talan einn hinn. Til samanburðar gat svarbreytan í línulegri aðhvarfsgreiningu tekið hvaða gildi sem er. Í línulegri aðhvarfsgreiningu lýstum við sambandi svarbreytu og skýribreytu með jöfnu beinnar línu, \(y = \beta_0 + \beta_1 x\) (jafna (4.10)). Sú framsetning er hins vegar ótæk þegar útkoman er tvíkosta, því þá eru útkomurnar víðsfjarri því að detta á beina línu, gildið á \(y\) ás er annað hvort núll eða einn og ekkert þar á milli.
Ein leið til að brúa þetta bil er með aðstoð svokallaðs tengifalls (e. link funcion). Algengast er að nota ákveðið tengifall sem á ensku kallast logistic fallið en ekki hefur gengið vel að þýða á íslensku.
11.1.1.1. Tengifall (link function)
Athugið
Tengifallið
varpar hvaða tölu sem er yfir í gildi á milli 0 og 1. Andhverfa þess er
Með aðstoð tengifallsins opnast nýr möguleiki, með því að stinga útkomunni úr aðhvarfslínunni inn í tengifallið tryggjum við að útkoman verði á milli 0 og 1. Þannig getum við notað aðhvarfsgreiningu til að meta líkurnar á að svarbreytan okkar taki gildið 1. Á þessu byggir tvíkosta aðhvarfsgreining.
11.1.1.2. Tvíkosta aðhvarfsgreiningarlíkanið (logistic regression model)
Athugið
Tvíkosta aðhvarfsgreiningarlíkanið er
þar sem \(p\) eru líkurnar á því að svarbreytan taki gildið 1.
Takið eftir því að á vinstri hlið jöfnu (11.3) stendur lógarithminn af stærðinni \(\frac{p}{1-p}\) sem er einmitt gagnlíkindin á því að svarbreytan taki gildið 1. Gagnlíkindum kynntumst við í kassa 4.5.2.1 í kafla 4.5.2.
11.2. Tvíkosta aðhvarfsgreining með samfelldri skýribreytu
11.2.1. Tvíkosta aðhvarfsgreining með samfelldri skýribreytu
11.2.1.1. Tvíkosta aðhvarf með samfelldri skýribreytu (logistic regression with a continuous explanatory variable)
Athugið
Gerum ráð fyrir að sambandi skýribreytunnar \(x\) og því svarbreyta taki gildið 1 megi lýsa með tvíkosta aðhvarfsgreiningarlíkaninu
Þá er gagnlíkindahlutfallið á því að svarbreytan taki gildið 1 fyrir hverja \(a\) eininga hækkun á skýribreytunni metið með \(e^{\hat \beta_1 a}\).
11.2.1.2. Sýnidæmi: Tvíkosta aðhvarfsgreining með samfelldri skýribreytu
Ábending
Jói kannar hvort nemendur sem stunda mikla líkamsrækt séu líklegri til að reykja heldur en þeir sem stunda litla líkamsrækt. Hann metur tvíkosta aðhvarfsgreiningarlíkan til að kanna sambandið þar sem skýribreytan er fjöldi klukkustunda sem nemendur stunda líkamsrækt á viku. Hann mat stuðlana sem
Hvert er gagnlíkindahlutfall þess að nemandi sem stundar líkamsrækt í 8 klukkustundir á viku reyki sígarettur á móti þeim sem stundar líkamsrækt í 5 klukkustundir á viku?
Fyrri nemandinn stundar \(8-5 = 3\) klukkustundum meiri líkamsrækt í viku heldur en sá seinni. Því er gagnlíkindahlutfall þess að hann reyki á móti hinum nemandanum gefið með
Þar sem gagnlíkindahlutfallið er minna en einn minnka líkurnar á því að nemendur reyki eftir því sem þeir stunda meiri líkamsrækt.
11.3. Tvíkosta aðhvarfsgreining með strjálli skýribreytu
11.3.1. Tvíkosta aðhvarfsgreining með strjálli skýribreytu
Þegar skýribreyta tvíkostaaðhvarfsgreiningarlíkans er strál er litið á einn flokk breytunnar sem viðmiðunarflokk en stuðlar líkansins meta frávik frá þessum viðmiðunarflokki.
11.3.1.1. Tvíkosta aðhvarf með strjálli skýribreytu (logistic regression with a discrete explanatory variable)
Athugið
Gerum ráð fyrir að sambandi skýribreytunnar \(x\) og því svarbreyta taki gildið 1 megi lýsa með tvíkosta aðhvarfsgreiningarlíkaninu
þar sem \(I_{x=a}\) er 1 ef \(x=a\) en núll annars. Þá er gagnlíkindahlutfallið á því að svarbreytan taki gildið 1 þegar skýribreytan \(x\) tekur gildið \(a\) á móti því þegar hún tekur viðmiðunargildið metið með \(e^{\hat \beta_a}\).
11.3.1.2. Sýnidæmi: Tvíkosta aðhvarfsgreining með strjálli skýribreytu
Ábending
Guðný kannar hvort nemendur sem drekka áfengi séu líklegri til að reykja heldur en þeir sem ekki drekka áfengi. Hún metur tvíkosta aðhvarfsgreiningarlíkan til að kanna sambandið og metur gildi stuðlanna sem
Þeir nemendur sem ekki drukku áfengi töldust til viðmiðunarflokksins. Hvert er gagnlíkindahlutfall þess að nemandi sem drekkur áfengi reyki sígarettur á móti þeim sem ekki drekkur áfengi?
Gagnlíkindahlutfall þess að nemandi sem drekkur áfengi reyki sígarettur á móti þeim sem ekki drekkur áfengi er gefið með
Þar sem gagnlíkindahlutfallið er stærra en einn eru nemendur sem drekka áfengi líklegri til að reykja heldur en þeir sem ekki drekka áfengi.
11.4. Líkur í tvíkosta aðhvarfsgreiningu
11.4.1. Líkur í tvíkosta aðhvarfsgreiningu
11.4.1.1. Tvíkosta aðhvarf og líkur (logistic regression and probability)
Athugið
Gerum ráð fyrir að sambandi skýribreytunnar \(x\) og því svarbreyta taki gildið 1 megi lýsa með tvíkosta aðhvarfsgreiningarlíkaninu
Þá eru líkurnar á því að svarbreytan taki gildið 1 þegar gildi skýribreytunnar er \(x\) eru gefnar með
ef skýribreytan er samfelld en
ef skýribreytan er strjál.
11.4.1.2. Sýnidæmi: Líkur í tvíkosta aðhvarfsgreiningu með samfelldri skýribreytu
Ábending
Jói kannar hvort nemendur sem stunda mikla líkamsrækt séu líklegri til að reykja heldur en þeir sem stunda litla líkamsrækt. Hann metur tvíkosta aðhvarfsgreiningarlíkan til að kanna sambandið þar sem skýribreytan er fjöldi klukkustunda sem nemendur stunda líkamsrækt á viku. Hann mat stuðlana sem
Hverjar eru líkur þess að nemandi sem stundar líkamsrækt í 8 klukkustundir á viku reyki sígarettur? En nemanda sem stundar líkamsrækt í 5 klukkustundir á viku?
Líkur þess að nemandi sem stundar líkamsrækt í 8 klukkustundir á viku reyki sígarettur eru gefnar með
Líkur þess að nemandi sem stundar líkamsrækt í 5 klukkustundir á viku reyki sígarettur eru gefnar með
11.4.1.3. Sýnidæmi: Líkur í tvíkosta aðhvarfsgreiningu með strjálli skýribreytu
Ábending
Guðný kannar hvort nemendur sem drekka áfengi séu líklegri til að reykja heldur en þeir sem ekki drekka áfengi. Hún metur tvíkosta aðhvarfsgreiningarlíkan til að kanna sambandið og metur gildi stuðlanna sem
Þeir nemendur sem ekki drukku áfengi töldust til viðmiðunarflokksins. Hverjar eru líkur þess að nemandi sem drekkur áfengi reyki sígarettur? Hverjar eru líkurnar á því að nemandi sem drekkur ekki áfengi reyki sígarettur
Líkur þess að nemandi sem drekkur áfengi reyki sígarettur eru gefnar með
Þar sem nemendur sem drekka ekki áfengi tilheyra viðmiðunarhópnum er \(I_{x=a}=0\) og því eru líkur þess að þeir reyki sígarettur gefnar með