Чишћење података за анализу података у социологији

Чишћење података је пресудан део анализе података, посебно када се прикупљају сопствени квантитативни подаци. Након што прикупите податке, морате их унети у рачунарски програм као што је САС, СПСС или Екцел. Током овог процеса, било да се ради ручно или скенер рачунара, то ће доћи до грешака. Без обзира колико су пажљиво унесени подаци, грешке су неизбежне. То може значити погрешно кодирање, погрешно читање написаних кодова, погрешно откривање поцрњелих жигова, недостајући подаци и тако даље. Чишћење података је процес откривања и исправљања ових грешака кодирања.

Постоје две врсте чишћења података које је потребно обавити на скуповима података. Могуће је чишћење кода и чишћење у непредвиђеним ситуацијама. Оба су кључна за процес анализе података, јер ако их игноришете, готово увек ћете произвести погрешне налазе истраживања.

Чишћење кодова могуће

Било која варијабла ће имати одређени скуп избора и кода одговора који ће одговарати сваком избору одговора. На пример, променљива пол ће имати три избора одговора и шифре за сваког: 1 за мушког, 2 за женског и 0 за нема одговора. Ако имате испитаника кодираног као 6 за ову варијаблу, јасно је да је направљена грешка јер то није могућа шифра одговора. Чишћење могућег кода процес је провјере да ли се у датотеци података појављују само кодови додијељени избору одговора за свако питање (могући кодови).

instagram viewer

Неки рачунарски програми и статистички софтверски пакети доступни су за проверу ових врста грешака током уношења података. Овде корисник дефинише могуће кодове за свако питање пре уноса података. Затим, ако је унесен број изван претходно дефинисаних могућности, појављује се порука о грешци. На пример, ако је корисник покушао да унесе 6 за род, рачунар може да огласи звучни сигнал и одбије код. Остали рачунарски програми дизајнирани су за тестирање нелегитимних кодова у довршеним датотекама података. То јест, ако нису проверене током процеса уношења података као што је управо описано, постоје начини за проверу датотека за грешке кодирања након што је унос података завршен.

Ако не користите рачунарски програм који проверава да ли постоје грешке кодирања током процеса уноса података, можете пронаћи неке грешке једноставним испитивањем дистрибуције одговора на сваку ставку у подацима комплет. На пример, можете да генеришете табелу фреквенција за променљиву пол и овде бисте видели број 6 који је погрешно унесен. Тада можете потражити тај унос у датотеци података и исправити га.

Чишћење од непредвиђених стања

Друга врста података чишћење се зове чишћење у непредвиђеним ситуацијама и мало је сложеније од чишћења кодова могућег кода. Логичка структура података може поставити ограничења у одговорима одређених испитаника или на одређене варијабле. Чишћење у непредвиђеним ситуацијама је поступак провере да такви подаци имају само они случајеви који би требало да имају податке о одређеној променљивој. На пример, рецимо да имате упитник у којем питате испитанике колико су пута били трудни. Све испитанице требале би имати одговор кодиран у подацима. Међутим, мужјаци би требали бити празни или требају имати посебну шифру за неодговарање. Ако је неки мушкарац у подацима кодиран као да има 3 трудноће, на пример, знате да постоји грешка и то треба да исправите.

_{Референце}

_{Баббие, Е. (2001). Пракса друштвених истраживања: 9. издање. Белмонт, Калифорнија: Вадсвортх Тхомсон.}