Статистика и анализа линеарне регресије

Линеарна регресија је статистичка техника која се користи да би се сазнало више о односу између независне (предиктор) променљиве и зависне (критеријумске) променљиве. Када у својој анализи имате више од једне независне променљиве, то се назива вишеструком линеарном регресијом. Генерално, регресија омогућава истраживачу да постави опште питање "Који је најбољи предиктор ???"

На пример, рецимо да смо проучавали узроке гојазност, мерено индексом телесне масе (БМИ). Конкретно, желели смо да видимо да ли су следеће променљиве значајни предиктори БМИ-ја особе: број брзе хране оброци који се једу недељно, број сати гледања телевизије недељно, број минута проведених у вежбању недељно и родитељи БМИ. Линеарна регресија била би добра методологија за ову анализу.

Једнаџба регресије

Када проводите регресијску анализу са једном независном променљивом, регресијска једначина је И = а + б * Кс где је И зависна променљива, Кс је независна променљива, а је константа (или пресретање), а б је тхе тхе нагиб регресијске линије

instagram viewer
. На пример, рецимо да је ГПА најбоље предвидјети регресијском једначином 1 + 0,02 * ИК. Ако је студент имао ИК од 130, тада би његов ГПП био 3,6 (1 + 0,02 * 130 = 3,6).

Када проводите регресијску анализу у којој имате више од једне независне променљиве, регресијска једнаџба је И = а + б1 * Кс1 + б2 * Кс2 +… + бп * Ксп. На пример, када бисмо желели да у нашу ГПА анализу уврстимо више променљивих, као што су мере мотивације и самодисциплине, користили бисмо ово једначина

Р-квадрат

Р-квадрат, такође познат као степен одређености, је уобичајена статистика за процену уклапања модела регресијске једначине. Односно, колико су добре све ваше независне променљиве у предвиђању зависне променљиве? Вредност Р-квадрата варира од 0,0 до 1,0 и може се множити са 100 да би се добио проценат од променљив објаснио. На пример, враћање на нашу ГПА регресијску једнаџбу са само једном независном променљивом (ИК)... Рецимо да наша Р-квадрат за једначину је 0,4. То бисмо могли протумачити тако да значи да је 40% одступања у ГПА објашњено ИК. Ако томе додамо још две наше променљиве (мотивација и самодисциплина) и Р-квадрат се повећава на 0.6, то значи да ИК, мотивација и самодисциплина заједно објашњавају 60% одступања у ГПА резултати.

Регресијске анализе се обично раде статистичким софтвером, као што је СПСС или САС, па се Р-квадрат израчунава за вас.

Тумачење регресијских коефицијената (б)

Коефицијенти б из горњих једначина представљају снагу и правац односа између независних и зависних варијабли. Ако погледамо ГПА и ИК једначину, 1 + 0,02 * 130 = 3,6, 0,02 је коефицијент регресије за променљиву ИК. Ово нам говори да је смјер везе позитиван, тако да како ИК расте, тако се повећава и ГПА. Ако је једначина 1 - 0,02 * 130 = И, то би значило да је однос између ИК и ГПА негативан.

Претпоставке

Постоји неколико претпоставки о подацима које је потребно испунити да би се извршила анализа линеарне регресије:

  • Линеарност: Претпоставља се да је однос између независних и зависних променљивих линеаран. Иако се та претпоставка никада не може у потпуности потврдити, гледајући на дијаграм расејања ваших променљивих може вам помоћи да одредите ову вредност. Ако је присутна закривљеност у односу, можете размотрити трансформисање променљивих или изричито омогућавање нелинеарних компоненти.
  • Нормалност: Претпоставља се да резидуе ваших променљивих се обично дистрибуира. То јест, грешке у предвиђању вредности И (зависна варијабла) се дистрибуирају на начин који се приближава нормалној кривуљи. Можете погледати хистограми или нормалне плохе вјероватноће да провјере дистрибуцију ваших варијабли и њихове преостале вриједности.
  • Независност: Претпоставља се да су све грешке у предвиђању вредности И независне једна од друге (нису у корелацији).
  • Хомосцедастичност: Претпоставља се да је варијанца око регресијске линије иста за све вредности независних променљивих.

Извор

  • СтатСофт: Електронски уџбеник статистике. (2011). http://www.statsoft.com/textbook/basic-statistics/#Crosstabulationb.