Hoe uitschieters te berekenen
In statistieken, a Atypische waarde is een gegevens die aanzienlijk verschilt van de andere gegevens in de steekproef. Vaak kunnen uitbijters in een gegevensverzameling statistici waarschuwen voor experimentele afwijkingen of fouten in de uitgevoerde metingen, en daarom kunnen ze uit de dataset worden verwijderd. Als de uitbijters van de set
worden genegeerd, kunnen er belangrijke wijzigingen zijn in de conclusies die uit het onderzoek zijn verkregen. Daarom is het belangrijk om te weten hoe uitschieters moeten worden berekend en geëvalueerd om een goed begrip van statistische gegevens te waarborgen.stappen
1
Leer hoe u mogelijke uitbijters kunt herkennen. Voordat we beslissen of we de uitschieters van een bepaalde dataset moeten negeren, moeten we eerst de mogelijke uitbijters van de dataset identificeren. Over het algemeen zijn uitbijters gegevens die erg verschillen van de trend die wordt uitgedrukt door de andere waarden in de dataset. Met andere woorden, het ze zoeken op afstand naar de andere waarden. Het is meestal gemakkelijk om dit te detecteren in de gegevenstabellen of (vooral) in de grafieken. Als de gegevensset visueel in een grafiek wordt uitgedrukt, bevinden de uitschieters zich "ver" van de andere waarden. Als de meeste gegevens in een gegevensverzameling bijvoorbeeld een rechte lijn vormen, kan redelijkerwijze niet worden geïnterpreteerd dat de uitbijters onderdeel van die regel waren.
- We gaan een dataset nemen die de temperaturen van 12 verschillende objecten in een ruimte weergeeft. Als 11 objecten temperaturen rond 70 graden Fahrenheit (21 graden Celsius), maar de twaalfde object, een oven met een temperatuur van 300 graden Fahrenheit (150 graden Celsius), een snelle punt aanduidt dat de oven is waarschijnlijk atypische waarde.
2
Sorteer de gegevens van minst naar grootst. De eerste stap bij het berekenen van de uitschieters in een gegevensverzameling is het vinden van de mediaan (midden) waarde van de gegevensverzameling. Deze taak is veel eenvoudiger als de waarden voor de gegevensset op volgorde van minst naar grootst zijn. Bestelt daarom, voordat u doorgaat, de waarden van de gegevensset op deze manier.
3
Bereken de mediaan van de dataset. De mediaan van de dataset gegevens waarboven de helft van de gegevens en waaronder de andere helft van de data-principe is de waarde "midden" gegevensset. Als de gegevensverzameling een oneven aantal gegevens bevat, is deze eenvoudig te vinden (de mediaan is de gegevens met hetzelfde aantal waarden erboven en eronder). Als er echter een even aantal gegevens is, is er geen enkel middelpunt, de twee middelpunten moeten worden gemiddeld om de mediaan te vinden. Merk op dat bij het berekenen van uitbijters de variabele Q2 meestal wordt toegewezen aan de mediaan, omdat deze tussen Q1 en Q3 ligt, het eerste en derde kwartiel, die we later zullen definiëren.
4
Bereken het eerste kwartiel. Deze waarde, waaraan we de variabele Q1 toewijzen, is de onderliggende gegevens die 25 procent (of een kwart) van de waarden zijn. Met andere woorden, dit zijn de gegevens die zich in het midden van de gegevens in de gegevensset bevinden onder de mediaan. Als er een even aantal waarden onder de mediaan ligt, moet u opnieuw de twee waarden in het midden gemiddelde om Q1 te vinden, omdat u mogelijk de mediaan zelf moet vinden.
5
Bereken het derde kwartiel. Deze waarde, waaraan we de variabele Q3 toewijzen, is de gegevens waarop 25 procent van de waarden zich bevinden. De methode om Q3 te vinden is bijna identiek aan de methode om Q1 te vinden, met dit verschil dat in dit geval de gegevens in aanmerking worden genomen over de mediaan, in plaats van de mediaan eronder.
6
Zoek het interkwartielbereik. Nu we Q1 en Q3 hebben gedefinieerd, moeten we de afstand tussen deze twee variabelen berekenen. De afstand van Q1 tot Q3 wordt berekend door Q1 af te trekken van Q3. De verkregen waarde voor het interkwartielbereik is de sleutel om de limieten voor de niet-atypische waarden van de gegevensset te bepalen.
7
Zoek de `interne limieten` van de dataset. Uitschieters worden geïdentificeerd bij het evalueren of ze binnen numerieke limieten liggen, "interne limieten" en "externe limieten" genoemd. Een waarde die buiten de interne limieten van de dataset ligt, wordt aangeroepen milde uitbijter, en een die buiten de uiterste limieten valt, wordt genoemd extreme atypische waarde. Om de interne limieten van de dataset te vinden, vermenigvuldigt u eerst het interkwartielbereik met 1,5. Voeg vervolgens het resultaat toe aan Q3 en geef het aan Q1. De twee waarden die u uit het resultaat krijgt, zijn de interne limieten van de gegevensset.
8
Zoek de "uiterste limieten" van de dataset. Deze worden op dezelfde manier berekend als de interne limieten, behalve dat het interkwartielbereik wordt vermenigvuldigd met 3 in plaats van 1,5. Vervolgens wordt het resultaat toegevoegd aan Q3 en afgetrokken van Q1 om de bovenste en onderste externe limieten te vinden.
9
Gebruik een kwalitatieve evaluatie om te bepalen of u de uitschieters al dan niet moet "weggooien". Met behulp van de beschreven methodologie is het mogelijk om te bepalen of bepaalde gegevens lichte atypische waarden, extreme uitschieters of een willekeurige vorm van atypische waarde zijn. Vergis je echter niet, het identificeren van een data als een uitbijter categoriseert het als een kandidaat die kan worden genegeerd uit de dataset, maar niet als een gegeven dat het moet worden genegeerd. de reden waarbij een uitbijter wordt onderscheiden van de rest van de waarden in de dataset is cruciaal om te bepalen of de uitbijter al dan niet moet worden genegeerd. Over het algemeen worden uitbijters waarvan de oorsprong kan worden toegeschreven aan een of andere fout, zoals een fout in de meting, in de record of in het experimentele ontwerp, genegeerd. Aan de andere kant, uitbijters die niet kunnen worden toegeschreven aan een fout en die nieuwe informatie of trends onthullen die niet algemeen waren voorspeld ze worden niet genegeerd
10
Begrijp het belang van het (soms) tellen van atypische waarden. Hoewel sommige uitbijters uit de datasets moeten worden genegeerd omdat ze het resultaat zijn van een fout en / of de resultaten misleidend kunnen zijn waardoor ze onjuist of misleidend zijn, moeten sommige uitschieters worden geteld. Als bijvoorbeeld blijkt dat een uitschieter op geldige wijze werd verkregen (dat wil zeggen, niet als gevolg van een fout) en / of geeft u een nieuw begrip van het fenomeen u meet, niet mag worden uitgesloten. Wetenschappelijke experimenten zijn bijzonder vatbare situaties bij het omgaan met uitschieters. Het per abuis negeren van een uitbijter kan betekenen dat informatie wordt weggegooid die een trend of nieuwe ontdekkingen aangeeft.
tips
- Wanneer u uitbijters vindt, probeer dan hun aanwezigheid uit te leggen voordat u ze uit de dataset verwijdert. Ze kunnen fouten in de metingen of afwijkingen van de verdeling aangeven.
Dingen die je nodig hebt
- rekenmachine
Delen op sociale netwerken:
Verwant
- Hoe informatie te analyseren met het Statistisch pakket voor de sociale wetenschappen
- Hoe een grafiek te maken
- Hoe te liegen met statistieken
- Hoe het betrouwbaarheidsinterval te berekenen
- Hoe de p-waarde te berekenen
- Hoe het statistische bereik te berekenen
- Hoe het interkwartielbereik te berekenen
- Hoe het gemiddelde, de standaarddeviatie en de standaardfout te berekenen
- Hoe de covariantie te berekenen
- Hoe de geaccumuleerde frequentie te berekenen
- Hoe statistische significantie te evalueren
- Hoe een doosdiagram te maken
- Hoe een wetenschappelijk experiment uit te voeren
- Hoe de standaardfout te berekenen
- Hoe de standaarddeviatie te berekenen
- Hoe de gemiddelde afwijking boven het gemiddelde te berekenen (voor niet-geclusterde gegevens)
- Hoe de standaarddeviatie in Excel te berekenen
- Hoe Z scores te berekenen
- Hoe het bereik van een gegevensreeks te vinden
- Hoe de mode van een reeks getallen te vinden
- Hoe Minitab te gebruiken