Experimentella data måste granskas för extremvärden för att dra meningsfulla slutsatser från det. I den enklaste fall uppnås detta genom att beräkna medelvärdet och standardavvikelsen med alla datapunkter och förkasta några som är mer än tre standardavvikelser bort från medelvärdet.
Men eftersom antalet prov i datamängden ökar, ökar sannolikheten ser extrema prov också. För att kompensera för den ökade sannolikheten för att komma över extrema värden är följande ändringar föreslagits.
Steg
- 1Beräkna medelvärdet använda alla datapunkter, inklusive misstänkta avvikande värden.
- 2Beräkna standardavvikelsen med
- 3För varje datapunkt, x I, compute, i en separat kolumn,
- För varje z> 0, beräkna Na, arean under normalfördelningskurvan mellan z och ∞, i en separat kolumn. Du kan göra detta i Excel med N * av NORMSFÖRD () funktionen, eller med hjälp av följande formel:
- För varje z <0, beräkna Na, arean under normalfördelningskurvan mellan - ∞ och z, i en separat kolumn. Du kan göra detta i Excel med hjälp av 1 - N * den NORMSFÖRD () funktionen, eller med hjälp av följande formel:
- Om Na <0,05, förkasta datapunkt som en avvikare.
- 4Figuren nedan visar en serie av datapunkter med de två första avsiktligt att vara synligt annorlunda från de andra. Det fanns 80 datapunkter, med ett medelvärde på 1122,6 och en standardavvikelse på 1.430.
- Den låga extremvärde var 1117, med en beräknad z = 3,899. Na värdet var 0,004, vilket är mindre än 0,05, så denna punkt kan säkert avvisas som en avvikare.
- Den höga extremvärde var 1128, med en dator z = 3,794. Na värdet var 0,006, vilket är mindre än 0,05, så denna punkt kan också vara tryggt förkastas som en avvikare.
Tips
- Om extremvärden uppstår, bör orsaken till avvikare identifieras före kassering det. Om ett värde är en datainmatning fel eller från en annan process bör korrigeras om möjligt snarare än att ta bort det. Om värdet är från processen eller populationen du studerar och är inte en datainmatning fel det inte bör utgå. Det är en del av den naturliga variationen i data och bör ingå i kvantifiera variabiliteten.
Varningar
- Denna procedur antar de värden som genereras av processen eller befolkningen följer en normalfördelning. Även mätfel kan följa en normalfördelning i många fall, kan många populationer och processer följer inte en normalfördelning. Som ett resultat av det förfarande som beskrivs i denna artikel kan resultera i felaktigt radera värden från data. Också även med uppgifter som normalt distribueras vissa värden bortom 3 standardavvikelser kommer att uppträda med ett stort antal observationer.
- Det anses inte god statistisk praxis att kasta extremvärden utan starka skäl. Kassering extremvärden utan orsak resulterar normalt i att underskatta den verkliga variationen i den process som genererar uppgifterna. Extremvärden inträffar typiskt från tre möjliga orsaker:
- Datainmatning fel.
- Värden från en annan population eller process.
- Faktiska ovanliga värden i data.