Интервали поверења су један део инференцијалне статистике. Основна идеја која стоји иза ове теме је проценити вредност непознате популације параметар коришћењем статистичког узорка. Не можемо само да проценимо вредност параметра, већ можемо и да прилагодимо своје методе за процену разлике између два повезана параметра. На пример, можда желимо да откријемо разлику у проценту мушке популације која живи у САД-у који подржава одређени закон у поређењу са женском бирачком популацијом.
Видећемо како да направимо ову врсту израчуна конструкцијом интервала поверења за разлику од два удела становништва. У процесу ћемо испитати неке теорије које стоје иза овог израчуна. Видећемо неке сличности у начину на који конструишемо а интервал поузданости за једну пропорцију становништва као аса интервал поверења за разлику од две популације значи.
Опћенитости
Пре него што погледамо специфичну формулу коју ћемо користити, размотримо укупни оквир у који се уклапа овакав интервал поверења. Облик врсте интервала поверења који ћемо гледати дат је следећом формулом:
Процените +/- маргину грешке
Многи интервали поузданости су ове врсте. Постоје два броја која морамо израчунати. Прва од ових вредности је процена параметра. Друга вредност је маргина грешке. Ова маргина грешке објашњава чињеницу да ми имамо процену. Интервал поузданости пружа нам распон могућих вриједности за наш непознати параметар.
Услови
Требало би да будемо сигурни да су сви услови испуњени пре било каквог рачунања. Да бисмо пронашли интервал поузданости за разлику од два удела становништва, морамо да осигурамо да следеће:
- Имамо две једноставни случајни узорци од велике популације. Овде "велика" значи да је популација најмање 20 пута већа од величине узорка. Величине узорка ће бити означене са н1 и н2.
- Наши појединци су изабрани независно једни од других.
- У сваком нашем узорку постоји најмање десет успеха и десет неуспеха.
Ако задња ставка на листи није задовољена, можда је могуће и заобићи ово. Можемо модификовати плус четири интервала поверења изградња и набавка робусни резултати. Како напредујемо претпостављамо да су сви горе наведени услови испуњени.
Узорци и удео становништва
Сада смо спремни да конструишемо наш интервал поверења. Почињемо са проценом разлике између наших пропорција становништва. Обе ове пропорције становништва процењују се узорком. Те пропорције узорка су статистике које се проналазе дељењем броја успеха у сваком узорку, а затим дељењем са одговарајућом величином узорка.
Први удео становништва означен је са п1. Ако је број успеха у нашем узорку из ове популације к1, онда имамо узорак узорка к1 / н1.
Ову статистику означујемо п1. Овај симбол читамо као „п1-што "јер личи на симбол п1 са шеширом на врху.
На сличан начин можемо израчунати узорак пропорције из наше друге популације. Параметар из ове популације је п2. Ако је број успеха у нашем узорку из ове популације к2, а наш узорак је п2 = к2 / н2.
Те две статистике постају први део нашег интервала поверења. Процена п1 је п1. Процена п2 је п2. Дакле, процена разлике п1 - п2 је п1 - п2.
Узорковање расподјеле разлике у узорцима узорака
Затим морамо добити формулу за грешку. Да бисмо то урадили прво ћемо размотрити подјела узорковања од п1 . Ово је биномна дистрибуција са вероватноћом успеха п1 и н1 суђења. Средина ове дистрибуције је пропорција п1. Стандардна девијација ове врсте случајних променљивих има варијанцу п1 (1 - п1 )/н1.
Дистрибуција узорковања п2 је слично ономе п оф1 . Једноставно промените све индексе од 1 до 2 и имамо биномну дистрибуцију са средином п2 и варијанца п2 (1 - п2 )/н2.
Сада нам је потребно неколико резултата из математичке статистике да бисмо одредили дистрибуцију узорковања п1 - п2. Средња вредност ове дистрибуције је п1 - п2. Због чињенице да се варијације збрајају, видимо да је варијанца дистрибуције узорака п1 (1 - п1 )/н1 + п2 (1 - п2 )/н2. Стандардно одступање дистрибуције је квадратни корен ове формуле.
Постоји неколико подешавања која морамо да извршимо. Први је да је формула за стандардну девијацију п1 - п2 користи непознате параметре п1 и п2. Наравно, ако бисмо заиста знали ове вредности, то уопште не би био занимљив статистички проблем. Не би нам требало да процењујемо разлику између п1 и п2.. Уместо тога, могли бисмо једноставно израчунати тачну разлику.
Овај проблем се може решити израчунавањем стандардне грешке, а не стандардним одступањем. Све што треба да урадимо је да заменимо пропорције популације пропорцијама узорака. Стандардне грешке израчунавају се на основу статистичких података уместо параметара. Стандардна грешка је корисна јер ефикасно процењује стандардно одступање. То значи за нас да више не требамо знати вредност параметара п1 и п2. .Пошто су ове пропорције узорака познате, стандардна грешка је дата квадратним кореном следећег израза:
п1 (1 - стр1 )/н1 + п2 (1 - стр2 )/н2.
Друга ставка којој се морамо позабавити је одређени облик наше дистрибуције узорака. Испада да можемо користити нормалну дистрибуцију за приближавање узорковања п1 - п2. Разлог за то је помало технички, али је изложен у наредном параграфу.
Оба п1 и п2 имају дистрибуцију узорковања која је биномна. Свака од ових биномних дистрибуција може се нормално апроксимирати нормалном дистрибуцијом. Тако п1 - п2 је случајна променљива. Формира се као линеарна комбинација две случајне променљиве. Свака од њих се апроксимира нормалном дистрибуцијом. Стога је расподјела узорка п1 - п2 се такође нормално дистрибуира.
Интервал формула
Сада имамо све што је потребно за састављање интервала поверења. Процена је (п1 - п2) и грешка је з * [п1 (1 - стр1 )/н1 + п2 (1 - стр2 )/н2.]0.5. Вредност због које уносимо з * диктира ниво самопоуздања Ц. Уобичајено коришћене вредности за з * су 1.645 за 90% поузданости и 1.96 за 95% поузданост. Ове вредности за з * означава део стандардне нормалне дистрибуције где тачно Ц проценат дистрибуције је између -з * и з *.
Следећа формула нам даје интервал поверења за разлику од две пропорције становништва:
(стр1 - п2) +/- з * [п1 (1 - стр1 )/н1 + п2 (1 - стр2 )/н2.]0.5