А парадокс је изјава или феномен који на површини делује контрадикторно. Парадокси помажу да се открије темељна истина испод површине онога што изгледа апсурдно. На пољу статистике, Симпсонов парадокс показује какве врсте проблема произилазе из комбиновања података из неколико група.
Са свим подацима морамо бити опрезни. Одакле је дошао? Како је добијен? И шта то заправо говори? Све су то добра питања која бисмо требали поставити када им предочимо податке. Врло изненађујући случај Симпсоновог парадокса показује нам да понекад оно што подаци изгледају баш и није случај.
Преглед парадокса
Претпоставимо да посматрамо неколико група и успоставимо везу или корелација за сваку од ових група. Симпсонов парадокс каже да када комбинирамо све групе заједно и погледамо податке у збирном облику, корелација која смо приметили раније може се преокренути. То се најчешће дешава због скривених променљивих које нису узете у обзир, али понекад је то последица бројчаних вредности података.
Пример
Да бисмо мало боље разумели Симпсонов парадокс, погледајмо следећи пример. У одређеној болници постоје два хирурга. Хирург А оперише 100 пацијената, а 95 их преживи. Хирург Б оперише 80 пацијената и 72 преживи. Разматрамо да је операција изведена у овој болници и да је проживљавање операције нешто што је важно. Желимо да изаберемо боље од два хирурга.
Ми гледамо податке и користимо их да израчунамо који проценат пацијената хирурга А је преживео операцију и упоредимо их са степеном преживљавања пацијената хирурга Б.
- 95 пацијената од 100 преживело је код хирурга А, па је 95/100 = 95% преживело.
- 72 пацијента од 80 преживела су код хирурга Б, па је 72/80 = 90% преживело.
На основу ове анализе, кога хирурга би требало да изаберемо да нас лечи? Чини се да је хирург А сигурнија опклада. Али да ли је то заиста тачно?
Шта ако бисмо урадили додатна истраживања података и установили да је то првобитно болница разматрала две различите врсте оперативних захвата, али су потом сакупили све податке заједно да би извештавали о свакој од њих хирурзи. Нису све операције једнаке, неке су сматране хитним операцијама високог ризика, док су друге биле рутинске природе које су биле унапред заказане.
Од 100 пацијената које је хирург лечио, 50 је било високог ризика, од којих су три умрла. Осталих 50 сматрало се рутинским, а од ове две су умрле. То значи да за рутинску операцију пацијент лечен од хирурга А има 48/50 = 96% стопа преживљавања.
Сада пажљивије проучавамо податке хирурга Б и откривамо да је од 80 пацијената, 40 лица високог ризика, од којих је седам умрло. Осталих 40 је било рутински, а само је један умро. То значи да пацијент има 39/40 = 97,5% стопа преживљавања за рутинску операцију код хирурга Б.
Који хирург изгледа боље? Ако ће вам операција бити рутинска, тада је хирург Б заправо бољи хирург. Ако погледамо све операције које врше хирурзи, А је боље. Ово је прилично контратуктивно. У овом случају, варљива варијабла врсте хирургије утиче на комбиноване податке хирурга.
Историја Симпсоновог парадокса
Симпсонов парадокс назван је по Едварду Симпсону који је први описао тај парадокс у раду из 1951. "Тумачење интеракције у табелама са непредвиђеним ситуацијама" из Часопис Краљевског статистичког друштва. Пеарсон и Иуле приметили су сличан парадокс пола века раније од Симпсонове, па се Симпсонов парадокс понекад назива и Симпсон-Иуле ефект.
Парадокса су широке примене у областима разноликим попут спортске статистике и подаци о незапослености. Сваки пут када се ти подаци прикупљају, пазите да се овај парадокс покаже.