Шта је корелација у статистици?

Понекад бројчани подаци долазе у паровима. Можда а палеонтолог мери дужину бутне кости (кости ногу) и хумеруса (кост руке) код пет фосила исте врсте диносаура. Можда би имало смисла размотрити дужине руку одвојено од дужина ногу и израчунати ствари као што су средња вредност или стандардна девијација. Али шта ако је истраживачу знатижељно знати постоји ли веза између ова два мерења? Није довољно само погледати руке одвојене од ногу. Уместо тога, палеонтолог треба да упари дужине костију за сваки костур и користи површину од статистика позната као корелација.

Шта је корелација? Претпоставимо у горњем примеру да је истраживач проучавао податке и дошао до не баш изненађујућег резултат је да су фосили диносаура са дужим рукама такође имали дуге ноге, а фосили са краћим рукама краће ноге. Распрострањеност података показала је да су све тачке података групиране у близини равне линије. Затим би истраживач рекао да постоји јака праволинијска веза, или корелација, између дужине костију руку и костију ногу фосила. Потребно је још мало рада да се каже колико је јака корелација.

instagram viewer

Корелација и расипање

Будући да свака тачка података представља два броја, дводимензионални расипач зрака је од велике помоћи у визуализацији података. Претпоставимо да у ствари имамо податке о подацима о диносаурусима, а пет фосила имају следећа мерења:

  1. Фемур 50 цм, хумерус 41 цм
  2. Фемур 57 цм, кост 61 цм
  3. Фемур 61 цм, поткољеница 71 цм
  4. Фемур 66 цм, хумерус 70 цм
  5. Фемур 75 цм, хумерус 82 цм

Распрострањеност података, уз мерење бутне кости у водоравном смеру и мерење хумеруса у вертикалном смеру, резултира горњим графом. Свака тачка представља мере једног од костура. На пример, тачка у доњем левом делу одговара костуру бр. 1. Тачка у горњем десном углу је скелет бр. 5.

Свакако изгледа као да бисмо могли извући равну линију која би била врло близу свим тачкама. Али како можемо са сигурношћу рећи? Блискост је у оку гледаоца. Како знамо да се наше дефиниције "блискости" подударају са неким другим? Постоји ли неки начин да ову количину можемо квантифицирати?

Коефицијент корелације

Да би се објективно измерило колико су подаци блиски правој линији, коефицијент корелације долази од помоћи. Тхе коефицијент корелације, обично означено р, реални је број између -1 и 1. Вредност р мери снагу корелације на основу формуле, елиминишући сваки субјективитет у процесу. Постоји неколико смерница које треба имати на уму током тумачења вредности р.

  • Ако р = 0, онда су тачке потпуни збрка с апсолутно никаквим равним односом података.
  • Ако р = -1 или р = 1, тада се све тачке података савршено слажу на линији.
  • Ако р је вредност која није ове крајности, а резултат је мање од савршеног уклапања равне линије. У скупинама података у стварном свету то је најчешћи резултат.
  • Ако р је позитивно, тада линија иде уз а позитивни нагиб. Ако р је негативан, онда линија иде према доље са негативним нагибом.

Прорачун коефицијента корелације

Формула за коефицијент корелације р је компликовано, као што се овде може видети. Састојци формуле су средства и стандардна одступања оба скупа нумеричких података, као и број података. За већину практичних примена р заморно је израчунати ручно. Ако су наши подаци унети у калкулатор или програм за прорачунске табеле са статистичке команде, тада обично постоји уграђена функција за израчунавање р.

Ограничења корелације

Иако је корелација моћан алат, постоје нека ограничења у његовом коришћењу:

  • Корелација нам не говори у потпуности све о подацима. Средства и стандардна одступања су и даље важни.
  • Подаци се могу описати кривуљом сложенијом од равне линије, али то се неће појавити у прорачуну р.
  • Одморници снажно утичу на коефицијент корелације. Ако у нашим подацима видимо било какве одметнике, требало би бити опрезан о томе које закључке извлачимо из вредности р.
  • Само зато што су два скупа података у корелацији, то не значи да је један узрок друге.
instagram story viewer