Статистичко узорковање се користи често у статистици. У овом процесу желимо да утврдимо нешто о становништву. Пошто су популације обично велике величине, формирамо статистички узорак одабиром подскупина популације који је унапред одређене величине. Проучавањем узорка можемо користити инференцијалну статистику да бисмо утврдили нешто о популацији.
Статистички узорак величине н укључује једну групу н појединци или субјекти које су насумично изабрани из популације. Уско повезан са концептом статистичког узорка је подјела узорковања.
Порекло дистрибуције узорака
Дистрибуција узорковања догађа се када формирамо више од једне једноставан случајни узорак исте величине из дате популације. За ове узорке се сматра да су међусобно неовисни. Дакле, ако се појединац налази у једном узорку, тада постоји иста вероватноћа да ће бити у наредном узорку.
Израчунавамо одређену статистику за сваки узорак. Ово би могао бити узорак значити, варијанца узорка или пропорција узорка. Пошто статистика зависи од узорка који имамо, сваки узорак ће типично дати различиту вредност за статистику која нас занима. Распон добијених вредности је оно што нам омогућава дистрибуцију узорковања.
Дистрибуција узорка за средства
За пример, размотрићемо дистрибуцију узорковања за средњу вредност. Средња вредност популације је параметар који је обично непознат. Ако одаберемо узорак величине 100, онда се средња вредност овог узорка лако израчуна тако што се зброје све вредности заједно, а затим подели са укупним бројем података, у овом случају 100. Један узорак величине 100 може нам дати средњу вредност 50. Други такав узорак може имати средњу вредност од 49. Још 51 и други узорак могли би имати просечну вредност од 50,5.
Расподела ових узорачких средстава даје нам дистрибуцију узорковања. Желели бисмо размотрити више од само четири узорка као што смо учинили горе. Са још неколико узорака значи да бисмо имали добру представу о облику расподеле узорка.
Зашто нас брига?
Дистрибуција узорака може изгледати прилично апстрактно и теоретски. Међутим, постоје неке врло важне последице од њиховог коришћења. Једна од главних предности је то што елиминишемо променљивост која је присутна у статистикама.
На пример, претпоставимо да започнемо са популацијом са средњом вриједности μ и стандардном девијацијом σ. Стандардна девијација нам даје меру колико је расподељена дистрибуција. Упоредићемо то са дистрибуцијом узорковања добијеном формирањем једноставних случајних узорака величине н. Расподела узорка средње вредности и даље ће имати средњу вредност μ, али стандардна девијација је другачија. Стандардно одступање за дистрибуцију узорка постаје σ / √ н.
Стога имамо следеће
- Величина узорка од 4 омогућава нам дистрибуцију узорковања са стандардним одступањем од σ / 2.
- Величина узорка од 9 омогућава нам дистрибуцију узорковања са стандардним одступањем од σ / 3.
- Величина узорка од 25 омогућава нам дистрибуцију узорковања са стандардним одступањем од σ / 5.
- Величина узорка од 100 омогућава нам расподелу узорка са стандардним одступањем од σ / 10.
У пракси
У пракси статистике ретко формирамо поделе узорковања. Уместо тога, лечимо статистике изведене из једноставног случајног узорка величине н као да су једна тачка дуж одговарајуће дистрибуције узорковања. Ово поново наглашава зашто желимо да имамо релативно велике величине узорка. Што је већа величина узорка, то ће бити мање варијација које ћемо добити у својој статистици.
Имајте на уму да, осим средишта и ширине, нисмо у могућности ништа рећи о облику наше дистрибуције узорака. Испада да под неким прилично широким условима Теорем централне границе може се применити да нам каже нешто прилично невероватно о облику расподеле узорка.