emkiset.ru

Hoe uitschieters te berekenen

In statistieken, a Atypische waarde is een gegevens die aanzienlijk verschilt van de andere gegevens in de steekproef. Vaak kunnen uitbijters in een gegevensverzameling statistici waarschuwen voor experimentele afwijkingen of fouten in de uitgevoerde metingen, en daarom kunnen ze uit de dataset worden verwijderd. Als de uitbijters van de set

worden genegeerd, kunnen er belangrijke wijzigingen zijn in de conclusies die uit het onderzoek zijn verkregen. Daarom is het belangrijk om te weten hoe uitschieters moeten worden berekend en geëvalueerd om een ​​goed begrip van statistische gegevens te waarborgen.

stappen

Titel afbeelding Calculate Outliers Step 1
1
Leer hoe u mogelijke uitbijters kunt herkennen. Voordat we beslissen of we de uitschieters van een bepaalde dataset moeten negeren, moeten we eerst de mogelijke uitbijters van de dataset identificeren. Over het algemeen zijn uitbijters gegevens die erg verschillen van de trend die wordt uitgedrukt door de andere waarden in de dataset. Met andere woorden, het ze zoeken op afstand naar de andere waarden. Het is meestal gemakkelijk om dit te detecteren in de gegevenstabellen of (vooral) in de grafieken. Als de gegevensset visueel in een grafiek wordt uitgedrukt, bevinden de uitschieters zich "ver" van de andere waarden. Als de meeste gegevens in een gegevensverzameling bijvoorbeeld een rechte lijn vormen, kan redelijkerwijze niet worden geïnterpreteerd dat de uitbijters onderdeel van die regel waren.
  • We gaan een dataset nemen die de temperaturen van 12 verschillende objecten in een ruimte weergeeft. Als 11 objecten temperaturen rond 70 graden Fahrenheit (21 graden Celsius), maar de twaalfde object, een oven met een temperatuur van 300 graden Fahrenheit (150 graden Celsius), een snelle punt aanduidt dat de oven is waarschijnlijk atypische waarde.
  • Titel afbeelding Calculate Outliers Step 2
    2
    Sorteer de gegevens van minst naar grootst. De eerste stap bij het berekenen van de uitschieters in een gegevensverzameling is het vinden van de mediaan (midden) waarde van de gegevensverzameling. Deze taak is veel eenvoudiger als de waarden voor de gegevensset op volgorde van minst naar grootst zijn. Bestelt daarom, voordat u doorgaat, de waarden van de gegevensset op deze manier.
  • Laten we doorgaan met het bovenstaande voorbeeld. Het volgende is de dataset die de temperaturen weergeeft van verschillende objecten in een ruimte: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Als we de waarden van de dataset van de minst tot de hoogste rangschikken, is onze reeks waarden: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  • Titel afbeelding Calculate Outliers Step 3
    3
    Bereken de mediaan van de dataset. De mediaan van de dataset gegevens waarboven de helft van de gegevens en waaronder de andere helft van de data-principe is de waarde "midden" gegevensset. Als de gegevensverzameling een oneven aantal gegevens bevat, is deze eenvoudig te vinden (de mediaan is de gegevens met hetzelfde aantal waarden erboven en eronder). Als er echter een even aantal gegevens is, is er geen enkel middelpunt, de twee middelpunten moeten worden gemiddeld om de mediaan te vinden. Merk op dat bij het berekenen van uitbijters de variabele Q2 meestal wordt toegewezen aan de mediaan, omdat deze tussen Q1 en Q3 ligt, het eerste en derde kwartiel, die we later zullen definiëren.
  • Raak niet in de war als de dataset een even aantal waarden heeft. Het gemiddelde van de twee waarden is vaak een getal dat niet in de dataset zelf voorkomt - dit is normaal. Echter, als de twee waarden van het medium hetzelfde getal zijn, zal het gemiddelde uiteraard hetzelfde aantal zijn, en dit is het ook Normaal.
  • In ons voorbeeld hebben we 12 waarden of gegevens. De 2 waarden van het medium komen overeen met respectievelijk de gegevens 6 en 7, 70 en 71. Daarom is de mediaan van onze gegevensset het gemiddelde van deze twee waarden: ((70 + 71) / 2), = 70.5.
  • Titel afbeelding Calculate Outliers Step 4
    4


    Bereken het eerste kwartiel. Deze waarde, waaraan we de variabele Q1 toewijzen, is de onderliggende gegevens die 25 procent (of een kwart) van de waarden zijn. Met andere woorden, dit zijn de gegevens die zich in het midden van de gegevens in de gegevensset bevinden onder de mediaan. Als er een even aantal waarden onder de mediaan ligt, moet u opnieuw de twee waarden in het midden gemiddelde om Q1 te vinden, omdat u mogelijk de mediaan zelf moet vinden.
  • In ons voorbeeld zijn 6 gegevens op de mediaan en 6 gegevens eronder. Dat betekent dat we, om het eerste kwartiel te vinden, de twee gegevens in het midden van de zes kleinere gegevens moeten gemiddelde. Gegevens 3 en 4 van de zes minors zijn allebei 70. Daarom is hun gemiddelde ((70 + 70) / 2), = 70. 70 is onze waarde voor Q1.
  • Titel afbeelding Calculate Outliers Step 5
    5
    Bereken het derde kwartiel. Deze waarde, waaraan we de variabele Q3 toewijzen, is de gegevens waarop 25 procent van de waarden zich bevinden. De methode om Q3 te vinden is bijna identiek aan de methode om Q1 te vinden, met dit verschil dat in dit geval de gegevens in aanmerking worden genomen over de mediaan, in plaats van de mediaan eronder.
  • Volgens ons voorbeeld zijn de twee waarden in het midden van de zes gegevens op de mediaan 71 en 72. Bij het middelen van deze twee waarden verkrijgen we ((71 + 72) / 2), = 71.5. 71.5 is onze waarde voor Q3.
  • Titel afbeelding Calculate Outliers Step 6
    6



    Zoek het interkwartielbereik. Nu we Q1 en Q3 hebben gedefinieerd, moeten we de afstand tussen deze twee variabelen berekenen. De afstand van Q1 tot Q3 wordt berekend door Q1 af te trekken van Q3. De verkregen waarde voor het interkwartielbereik is de sleutel om de limieten voor de niet-atypische waarden van de gegevensset te bepalen.
  • In ons voorbeeld zijn de waarden voor Q1 en Q3 respectievelijk 70 en 71,5. Om het interkwartielbereik te vinden, trekken we Q3 af - Q1: 71,5 - 70 = 1.5.
  • Merk op dat dit werkt, zelfs als Q1, Q3 of beide negatieve getallen zijn. Als onze waarde voor Q1 bijvoorbeeld -70 was, zou ons interkwartielbereik 71,5 - (-70) = 141,5 zijn, wat correct zou zijn.
  • Titel afbeelding Calculate Outliers Step 7
    7
    Zoek de `interne limieten` van de dataset. Uitschieters worden geïdentificeerd bij het evalueren of ze binnen numerieke limieten liggen, "interne limieten" en "externe limieten" genoemd. Een waarde die buiten de interne limieten van de dataset ligt, wordt aangeroepen milde uitbijter, en een die buiten de uiterste limieten valt, wordt genoemd extreme atypische waarde. Om de interne limieten van de dataset te vinden, vermenigvuldigt u eerst het interkwartielbereik met 1,5. Voeg vervolgens het resultaat toe aan Q3 en geef het aan Q1. De twee waarden die u uit het resultaat krijgt, zijn de interne limieten van de gegevensset.
  • In ons voorbeeld is het interkwartielbereik (71.5 -70) of 1.5. Als we dit met 1,5 vermenigvuldigen, krijgen we 2,25. We voegen dit nummer toe aan Q3 en trekken het af van Q1 om de interne limieten te vinden zoals hieronder te zien:
  • 71,5 + 2,25 = 73,75
  • 70 - 2.25 = 67.75
  • Daarom zijn de interne limieten 67.75 en 73.75.
  • In onze dataset ligt alleen de oventemperatuur (300 graden) buiten dit bereik en kan daarom een ​​milde atypische waarde worden. We moeten echter nog steeds bepalen of deze temperatuur een extreme uitschieter is, dus trek geen conclusies totdat we dit gedaan hebben.
    Titel afbeelding Calculate Outliers Step 7Bullet2
  • Titel afbeelding Calculate Outliers Step 8
    8
    Zoek de "uiterste limieten" van de dataset. Deze worden op dezelfde manier berekend als de interne limieten, behalve dat het interkwartielbereik wordt vermenigvuldigd met 3 in plaats van 1,5. Vervolgens wordt het resultaat toegevoegd aan Q3 en afgetrokken van Q1 om de bovenste en onderste externe limieten te vinden.
  • In ons voorbeeld geeft het vermenigvuldigen van het interkwartielbereik dat door drie wordt genoemd, (1,5 * 3) of 4,5. We vinden de bovenste en onderste externe limieten als voorheen:
  • 71,5 + 4,5 = 76
  • 70 - 4,5 = 65,5
  • De buitenste limieten zijn 65.5 en 76.
  • Alle gegevens die buiten de buitengrenzen vallen, worden als een extreme uitschieter beschouwd. In dit voorbeeld is de temperatuur van de oven, 300 graden, erg buiten de buitenste grenzen en daarom is het absoluut een zeer ongebruikelijke waarde.
    Titel afbeelding Calculate Outliers Step 8Bullet2
  • Titel afbeelding Calculate Outliers Step 9
    9
    Gebruik een kwalitatieve evaluatie om te bepalen of u de uitschieters al dan niet moet "weggooien". Met behulp van de beschreven methodologie is het mogelijk om te bepalen of bepaalde gegevens lichte atypische waarden, extreme uitschieters of een willekeurige vorm van atypische waarde zijn. Vergis je echter niet, het identificeren van een data als een uitbijter categoriseert het als een kandidaat die kan worden genegeerd uit de dataset, maar niet als een gegeven dat het moet worden genegeerd. de reden waarbij een uitbijter wordt onderscheiden van de rest van de waarden in de dataset is cruciaal om te bepalen of de uitbijter al dan niet moet worden genegeerd. Over het algemeen worden uitbijters waarvan de oorsprong kan worden toegeschreven aan een of andere fout, zoals een fout in de meting, in de record of in het experimentele ontwerp, genegeerd. Aan de andere kant, uitbijters die niet kunnen worden toegeschreven aan een fout en die nieuwe informatie of trends onthullen die niet algemeen waren voorspeld ze worden niet genegeerd
  • Een ander criterium om te overwegen is of de uitbijter significant invloed heeft op het gemiddelde (gemiddelde) van de dataset door deze te laten afwijken of deze bedrieglijk te maken. Dit in gedachten houden is vooral belangrijk als u van plan bent om conclusies te trekken uit het gemiddelde van de dataset.
  • Laten we ons voorbeeld evalueren. In ons voorbeeld, gegeven dat het is zeer onwaarschijnlijk dat de oven bereikte een temperatuur van 300 graden ten gevolge van een onvoorziene natuurlijke kracht, concluderen we dat vrijwel zeker de oven was ingeschakeld ongeluk, wat resulteert in een hoge temperatuur afwijkende lezen. Bovendien, als we de uitschieter negeren het gemiddelde van onze dataset (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 °, terwijl het gemiddelde als we negeren de uitschieter is (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70.55.
  • Aangezien de uitbijter kan worden toegeschreven aan een menselijke fout en omdat het niet correct is om te zeggen dat de gemiddelde temperatuur van deze kamer bijna 90 graden was, moeten we kiezen veronachtzaming onze atypische waarde.
  • Titel afbeelding Calculate Outliers Step 10
    10
    Begrijp het belang van het (soms) tellen van atypische waarden. Hoewel sommige uitbijters uit de datasets moeten worden genegeerd omdat ze het resultaat zijn van een fout en / of de resultaten misleidend kunnen zijn waardoor ze onjuist of misleidend zijn, moeten sommige uitschieters worden geteld. Als bijvoorbeeld blijkt dat een uitschieter op geldige wijze werd verkregen (dat wil zeggen, niet als gevolg van een fout) en / of geeft u een nieuw begrip van het fenomeen u meet, niet mag worden uitgesloten. Wetenschappelijke experimenten zijn bijzonder vatbare situaties bij het omgaan met uitschieters. Het per abuis negeren van een uitbijter kan betekenen dat informatie wordt weggegooid die een trend of nieuwe ontdekkingen aangeeft.
  • Laten we bijvoorbeeld zeggen dat we een nieuw medicijn gaan ontwerpen om de grootte van vissen in een viskwekerij te vergroten. We zullen dezelfde gegevensset gebruiken voor ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), maar deze keer, elk gegevenspunt vertegenwoordigt de massa van een vis ( in gram) na te zijn behandeld met een ander experimenteel geneesmiddel sinds de geboorte. Met andere woorden, het eerste medicijn zorgde ervoor dat een vis 71 gram weegt, het tweede medicijn gaf een andere vis een massa van 70 gram, enzovoort. In deze situatie, 300 het is nog steeds een zeer ongebruikelijke waarde, maar we moeten het niet negeren omdat, aangenomen dat het niet te wijten is aan een fout, het een belangrijk succes is in ons experiment. Het medicijn dat een vis van 300 gram produceert, diende meer dan alle anderen - daarom is dit feit eigenlijk het belangrijkste van onze dataset, in plaats van de minder belangrijk
  • tips

    • Wanneer u uitbijters vindt, probeer dan hun aanwezigheid uit te leggen voordat u ze uit de dataset verwijdert. Ze kunnen fouten in de metingen of afwijkingen van de verdeling aangeven.

    Dingen die je nodig hebt

    • rekenmachine
    Delen op sociale netwerken:

    Verwant
    Hoe een grafiek te makenHoe een grafiek te maken
    Hoe te liegen met statistiekenHoe te liegen met statistieken
    Hoe het betrouwbaarheidsinterval te berekenenHoe het betrouwbaarheidsinterval te berekenen
    Hoe de p-waarde te berekenenHoe de p-waarde te berekenen
    Hoe het statistische bereik te berekenenHoe het statistische bereik te berekenen
    Hoe het interkwartielbereik te berekenenHoe het interkwartielbereik te berekenen
    Hoe het gemiddelde, de standaarddeviatie en de standaardfout te berekenenHoe het gemiddelde, de standaarddeviatie en de standaardfout te berekenen
    Hoe de covariantie te berekenenHoe de covariantie te berekenen
    Hoe de geaccumuleerde frequentie te berekenenHoe de geaccumuleerde frequentie te berekenen
    Hoe statistische significantie te evaluerenHoe statistische significantie te evalueren
    » » Hoe uitschieters te berekenen
    © 2021 emkiset.ru