Оутлиерс су вредности података које се увелике разликују од већине скупа података. Ове вредности су ван општег тренда који је присутан у подацима. Пажљиво испитивање скупа података за тражење одметника изазива одређене потешкоће. Иако је лако приметити, можда коришћењем сталплоплота, да се неке вредности разликују од осталих података, колико другачија вредност мора бити сматрана извансеријом? Погледаћемо специфично мерење које ће нам дати објективни стандард онога што представља вансерију.
Интеркуартиле опсег
Тхе интеркуартиле опсег је оно што можемо да искористимо да утврдимо да ли је екстремна вредност заиста извансеријска вредност. Интерквартилни опсег заснован је на делу сажетак са пет бројева скупа података, наиме први квартил и трећи квартил. Прорачун интерквартилног распона укључује једну аритметичку операцију. Све што морамо учинити да бисмо пронашли интерквартилни распон је да одузмемо први квартил од трећег квартила. Добијена разлика говори нам о раширености средње половине наших података.
Одређивање исхода
Умножавање интерквартилног распона (ИКР) на 1,5 омогућиће нам да утврдимо да ли је одређена вредност већа. Ако од првог квартила одузмемо 1,5 к ИКР, све вредности података које су мање од овог броја сматрају се одласцима. Слично томе, ако у трећи квартил додамо 1,5 к ИКР, све вредности података веће од овог броја сматрају се одласцима.
Стронг Оутлиерс
Неки одметници показују изразито одступање од остатка скупа података. У тим случајевима можемо предузети кораке одозго, мењајући само број са којим множимо ИКР и одређујемо одређену врсту оутлиера. Ако од првог квартила одузмемо 3,0 к ИКР, било која тачка која је испод овог броја назива се јаким оутлиером. На исти начин, додавање 3.0 к ИКР у трећи квартил омогућава нам да дефинишемо јаке одметнике гледајући поене које су веће од овог броја.
Слаби одласци
Поред снажних одметника, постоји још једна категорија за аутонименте. Ако је вредност података изван, али не и јака, тада кажемо да је вредност слаба. Ми ћемо погледати ове концепте истражујући неколико примера.
Пример 1
Прво, претпоставимо да имамо скуп података {1, 2, 2, 3, 3, 4, 5, 5, 9}. Број 9 сигурно изгледа као да би могао бити извањски. Много је већа од било које друге вредности из остатка сета. Да бисмо објективно утврдили да ли је 9 извансеријски, користимо горње методе. Први квартил је 2, а трећи квартил 5, што значи да је интерквартилни распон 3. Интерквартилни распон множимо са 1,5, добијајући 4,5, а затим додајемо овај број у трећи квартил. Резултат, 9.5, је већи од било које од наших вредности података. Стога нема одметника.
Пример 2
Сада гледамо исти скуп података као и раније, с изузетком да је највећа вредност 10, а не 9: {1, 2, 2, 3, 3, 4, 5, 5, 10}. Први квартил, трећи квартил и интерквартилни распон су идентични као пример 1. Када трећем квартилу додамо 1,5 к ИКР = 4,5, збир износи 9,5. Пошто је 10 веће од 9.5, сматра се вансеријом.
Да ли је 10 снажно или слабо? За ово морамо погледати 3 к ИКР = 9. Када у трећи квартил додамо 9, завршимо са сумом од 14. С обзиром да 10 није већи од 14, то није јак удес. Дакле, закључујемо да је 10 слабији резултат.
Разлози за идентификовање одметника
Увек требамо бити на опрезу за ауторе. Понекад су узроковане грешком. Други пут одметници указују на присуство раније непознате појаве. Још један разлог због којег требамо бити опрезни у потрази за лицима је због свега тога дескриптивна статистика који су осетљиви на одметнике. Средња вредност, стандардна девијација и коефицијент корелације за упарени подаци су само неке од ових врста статистика.