Једног дана на ручку млада жена јела је велику здјелу сладоледа, а члан колеге факултета је пришао њој и рекао: „Боље ти је да будеш пажљив, постоји висока статистичкикорелација између сладоледа и утапања. " Сигурно му је добацила збуњен поглед, док је он још мало разрађивао. „Дани са највећом продајом сладоледа такође виде да се већина људи утапа.“
Када је завршила мој сладолед, две колеге су разговарале о чињеници да само зато што је једна променљива статистички повезана са другом, то не значи да је једна узрок друге. Понекад се у позадини крије променљива. У овом случају се у години крије дан у години. У врелим љетним данима се продаје више сладоледа него сњежних зимских. Љети више плива, а тиме се и љето утопи више него зими.
Пазите на вребајуће променљиве
Горња анегдота одличан је пример онога што је познато као варљива варијабла. Као што му име каже, варљива варијабла може бити неухватљива и тешка за откривање. Кад откријемо да су два нумеричка скупа података чврсто повезана, увијек бисмо требали питати: "Може ли нешто друго узроковати овај однос?"
Следе примери снажне корелације проузроковане варљивом променљивом:
- Просечан број рачунара по особи у некој земљи и просечни животни век те земље.
- Број ватрогасаца на пожару и штета настала у пожару.
- Висина ученика основне школе и његов ниво читања.
У свим овим случајевима однос између променљивих је веома јак. То се обично означава са коефицијент корелације која има вредност блиску 1 или -1. Није важно колико је овај коефицијент корелације близу 1 или -1, ова статистика не може показати да је једна варијабла узрок друге променљиве.
Откривање варљивих варијабли
По својој природи, вређене променљиве је тешко открити. Једна од стратегија, ако је доступна, је да се испита шта се са подацима догађа током времена. Ово може открити сезонске трендове, као што је пример сладоледа, који се замаглију када се подаци саберу. Друга метода је сагледавање одметници и покушајте да утврдите шта их разликује од осталих података. Понекад то даје наговештај шта се дешава иза кулиса. Најбољи начин акције је бити проактиван; пажљиво пропитајте претпоставке и дизајнерске експерименте.
Зашто је то важно?
Претпоставимо да је у почетном сценарију добронамјерни, али статистички неинформисани конгресмен предложио да се забрани сав сладолед да би се спречило утапање. Такав нацрт закона ће узнемиравати велике слојеве становништва, приморати неколико компанија у банкрот и елиминисати хиљаде радних места када се индустрија сладоледа у земљи затворила. Упркос најбољим намерама, овај предлог закона не би смањио број смртних случајева утопљеника.
Ако вам се овај пример чини мало предалеко, размотрите следеће, што се заправо и догодило. У раним 1900-има лекари су приметили да нека новорођенчад мистериозно умире у сну од уочених респираторних проблема. То се називало креветић смрти и данас је познато као СИДС. Једна ствар која се одвајала од обдукција извршених код оних који су умрли од СИДС-а био је проширени тимус, жлезда која се налази у грудима. На основу повезаности повећаних тимусних жлезда код беба са СИДС-ом, лекари су претпоставили да абнормално велики тимус изазива неправилно дисање и смрт.
Предложено решење било је да се смањи тимус високим зрачењем или да се целокупно уклони жлезда. Ови поступци су имали високу стопу смртности и довели су до још већег броја смртних случајева. Оно што је жалосно је да ове операције нису морале да се изводе. Накнадна истраживања показала су да су ови доктори погрешили своје претпоставке и да тимус није одговоран за СИДС.
Корелација не узрокује узрочно
Наведено би нас требало зауставити када мислимо да се статистички докази користе како би оправдали ствари попут медицинских режима, законодавства и образовних приједлога. Важно је да се добро ради на тумачењу података, нарочито ако ће резултати који укључују корелацију утицати на живот других.
Када неко изјави, „Студије показују да је А узрок Б, а неке статистике то подржавају,“ будите спремни одговорите, „повезаност не подразумева узрочно стање“. Увек пазите на оно што се скрива испод података.