Hoe te liegen met statistieken

Zoals elke goede waarnemer weet, kunnen statistieken erg verwarrend zijn als je geen voorkennis hebt voor hun interpretatie. Lees de volgende stappen om te leren hoe misleidende en ingewikkelde statistieken te begrijpen en gebruik die kennis als een voordeel.

Inhoud

Stappen

Methode 1liggen met gemiddelden
Methode 2liegen met datasets
Methode 3liggen met afbeeldingen

Tips
Waarschuwingen

stappen

Methode 1
Liggen met gemiddelden

Titel afbeelding Lie with Statistics Step 1

Begrijp de terminologie. Het woord "gemiddelde" het wordt veel gebruikt bij het bespreken van statistische gegevens. Op het eerste gezicht klinkt de term vrij eenvoudig: het gemiddelde is het bedrag dat min of meer in het midden valt. Er zijn echter verschillende soorten gemiddelden, die allemaal tot fouten kunnen leiden als ze niet goed worden begrepen.

de rekenkundig gemiddelde het wordt bereikt door de som van alle getallen in een gegevensverzameling en de verdeling tussen het aantal elementen daarin. Met andere woorden, als je de nummers 3, 3, 5, 4 en 7, het rekenkundig gemiddelde kan worden verkregen door ze (22) en de som te delen door 5 (er zijn 5 getallen in de reeks).

In dit voorbeeld is het rekenkundig gemiddelde 4,4.

de mediaan is het getal in een gegevensverzameling die tussen het laagste en het hoogste aantal ligt. Met dezelfde gegevens als hiervoor (3, 3, 5, 4 en 7) is de mediaan 4, aangezien 2 van de getallen kleiner zijn en 2 groter.

de mode het is een weergave van het meest voorkomende nummer in de set. Met hetzelfde voorbeeld is de mode 3, omdat deze twee keer voorkomt.

Titel afbeelding Lie with Statistics Step 2

Liggen met rekenkousen. Het rekenkundig gemiddelde lijkt misschien het meest onfeilbare van alle hierboven beschreven methoden, maar dat is niet echt het geval. Dit komt omdat abnormaal hoge of lage cijfers in de dataset aanzienlijk kunnen afwijken van het gemiddelde. Om te liggen met een rekenkundig gemiddelde verzamel je perifere data en gebruik je het in de vergelijking.

Stel je bijvoorbeeld voor dat je 50 huishoudens in een buurt onderzoekt over hun inkomen. De meeste gezinnen verdienen tussen $ 40.000 en $ 60.000 per jaar, maar een van de bewoners van een huis verdient $ 5 miljoen per jaar. Bij het berekenen van het rekenkundig gemiddelde zal het aantal aanzienlijk hoger zijn dan het gemiddelde van het inkomen "echt" in dat gebied, omdat het bedrag van $ 5 miljoen veel groter is dan de andere.

Evenzo, als u gegevens had waaruit bleek dat 9 personen elk $ 1.000 op hun bankrekeningen hadden, maar een tiende persoon slechts $ 1 had, zou het rekenkundig gemiddelde $ 900.10 zijn, bijna 10% minder dan het bedrag gemeen.

Gerenommeerde onderzoeken verwerpen vaak zeer hoge en zeer lage aantallen voorafgaand aan de berekening van het rekenkundig gemiddelde. Niet alle enquêtes die in het nieuws worden gezien, genieten echter een goede reputatie. Tenzij u zelf toegang hebt tot de dataset, of als u een schriftelijke garantie ziet dat de extreme waarden zijn verwijderd, is het het veiligst om aan te nemen dat ze niet zijn verwijderd.

Titel afbeelding Lie with Statistics Step 3

Liggend met medianen De mediaan is in feite het moeilijkste cijfer om te "liegen", omdat het nooit te hoog of te laag kan zijn in vergelijking met de meeste datasets. Het moet noodzakelijkerwijs centraal staan. U kunt de mediaan echter gebruiken om een zeer groot of klein aantal te verbergen. Als de elementen van de set bijvoorbeeld 1, 1, 2, 3, 4, 5, 3000 zijn, is het gemiddelde 3.

Als u hetzelfde aantal elementen heeft, kunt u de mediaan krijgen als u het gemiddelde van de twee vermeldingen in het midden vindt. Dit telt nog niet voor uitschieters.

Wees voorzichtig met de medianen die worden gebruikt om wijzigingen op het laatste moment te beschrijven. Een bedrijf dat de prijs van zijn diensten elk jaar met 3% verhoogt, zou dit jaar met 20% kunnen stijgen en het verbergen met de presentatie van een gemiddelde van 3% in de afgelopen 9 jaar.

Titel afbeelding Lie with Statistics Step 4

Liggend met de mode. In bepaalde gevallen is het bijna onmogelijk om met mode te liegen. Het gemiddelde aantal gekochte tickets per persoon voor een balspel zal bijna altijd nauwkeurig worden weergegeven door de mode. Modes kunnen echter ook belangrijke gegevens uitsluiten, vooral in kleinere sets.

Als u bijvoorbeeld een reeks van alle getallen hebt die van 1 tot 100 gaan, maar nummer 1 3 keer wordt opgenomen, is 1 het modieuze gemiddelde van de set, ook al is het gemiddelde (en in dit geval redelijker) ) ligt veel dichter bij 50.

Elke enquête die een brede schaal schat, kan worden gemanipuleerd om mode te benadrukken. Als u 100 mensen onderzoekt met een schaal van 1 tot 10 over hun mening over een onderwerp, en meer mensen in aanmerking komen " 10 " dan met een ander nummer, zelfs als slechts één andere persoon een beoordeling van 10 gaf in plaats van 1, dan is 10 mode.

Titel afbeelding Lie with Statistics Step 5

Liggend met representatieve cijfers. Als u gegevens gedefinieerd door abstracte getallen, in plaats van specifieke nummers (bijvoorbeeld een klanttevredenheidsonderzoek) is beangstigend eenvoudig met die set te liggen. Als je mensen vraagt naar hun tevredenheid te beoordelen op een schaal van 1 tot 3, dat niet per se bewijzen dat klanten die kozen voor 3 zijn drie keer gelukkiger dan degenen die naar 1. Deze koos wordt gebruikt om af te buigen het rekenkundig gemiddelde in in het bijzonder, maar het kan ook worden toegepast op de mediaan en soms zelfs op mode.

Methode 2
Liegen met datasets

Titel afbeelding Lie with Statistics Step 6

Gebruik een kleine set Elke expert in statistieken weet dat de enige manier om een nuttig gemiddelde te benaderen of een echte trend te detecteren, is om gegevens te verzamelen van de breedst mogelijke set. Als je informatie van 100 mensen kunt krijgen, is dat goed - 10.000 is nog beter. Hoe meer gegevens u in de set plaatst, hoe nauwkeuriger u bent om nauwkeurige gemiddelden te krijgen. Door een set van bijvoorbeeld 3 of 5 gegevens te gebruiken, kunt u resultaten produceren die de stand van zaken niet goed weergeven.

Als je bijvoorbeeld ontdekt dat twee mensen die onlangs zijn gekwetst door iets dwaas, zoals een kussen, en ze gebruiken als onderdeel van je dataset, kun je stellen dat kussens categorisch gevaarlijk zijn voor iedereen. Ongeacht het gemiddelde dat u wilt laten zien, zolang het niet onthult dat de steekproef slechts 2 personen omvat, is er geen duidelijke manier om uw claim te weerleggen.

Titel afbeelding Lie with Statistics Step 7

Gebruik een gecontroleerde set De meest nauwkeurige datasets zijn niet alleen groot, ze zijn ook breed. Een geoloog het bestuderen van de soorten mineralen in een woestijn zal nauwkeuriger zijn als je veel monsters uit alle hoeken van de woestijn verzamelen, in plaats van het verzamelen van 1000 monsters van dezelfde locatie lijst. Als u de reikwijdte van de gegevensset beperkt, kan dit de resultaten aanzienlijk beïnvloeden.

Soms is het opzettelijk nuttig en gedaan. Mensen die onderzoek doen met behulp van demografische gegevens, bijvoorbeeld, willen graag specifiek weten over de soorten banen die mannen gewoonlijk hebben, en daarom alleen mannen onderzoeken. Hoewel dit duidelijk tot uiting komt in de gegevens, is er niets duister aan.

Met name gegevens van kleine universitaire onderzoeksprojecten worden vaak misbruikt om een gecontroleerde gegevensset gelijk te stellen met een algemeen resultaat. Dit komt omdat veel van de onderzoeksprojecten op universitair niveau hebben niet genoeg tijd of de middelen om willekeurige een grote steekproef van de gewone burgers te gebruiken, en in plaats daarvan alleen vertrouwen op studenten. Nogmaals, het is prima, zolang die informatie duidelijk zitten wordt gelaten, hoewel nieuwsorganisaties, op zoek naar sensationele koppen zijn vaak de details van een kleine universitaire studie verborgen zodat het lijkt veel algemener.

Titel afbeelding Lie with Statistics Step 8

Gebruik een ongebalanceerde set. Deze techniek is heel slim, omdat je kunt liegen met een detail voor de kijker. De truc hier is om gegevens te gebruiken die niet op een eerlijke manier kunnen worden vergeleken en die worden behandeld alsof ze op dezelfde voorwaarden zijn. Bijvoorbeeld, als je een stad van 100.000 die 10 000 inwoners in 10 jaar gewonnen en vergelijken met een bevolking van 10, die 10 bewoners meer in de laatste 10 jaar won, de percentages van elke verhoging lijken aan te tonen dat de kleine stad groeide veel sneller.

Soms gebruiken mensen die marktgegevens analyseren dit om een misleidend beeld van de verkoopcijfers te geven. Laten we zeggen dat je de verkoop van appels en sinaasappelen volgt, maar midden in het onderzoek is er geen sinaasappel meer, omdat er een tekort is. Als u de gegevens voor de rest van het onderzoek blijft vergelijken, zal de verkoop van appels sterk toenemen in vergelijking met de verkoop van sinaasappels, hoewel appels plotseling niet populairder worden.

Methode 3
Liggen met afbeeldingen

Titel afbeelding Lie with Statistics Step 9

Laat de Y-as leeg. Er is geen duidelijker beeld voor de gegevens dan een grafiek of tabel, maar zelfs deze kunnen subtiel worden gemanipuleerd om verschillende effecten te geven. Dit komt omdat mensen de neiging hebben naar de vormen en groottes in de afbeeldingen te kijken voordat ze de moeite nemen om de numerieke details te controleren die daarmee zijn verbonden. De eenvoudigste manier om de Y-as te manipuleren, is deze niet te labelen.

Als u een set van 5 balken op de X-as hebt, maar geen indicatie van hoe hoog deze is ten opzichte van andere, is er geen manier om te meten of er al dan niet een significant verschil is tussen beide.

Titel afbeelding Lie with Statistics Step 10

Gebruik zeer grote of kleine getallen op de Y-as. Zeggen uw gegevensset ligt tussen 1 en 50. Om de verschillen te verbergen, meet de Y-as in stappen van 100 tot doelbewust accentueren meet de Y-as in stappen van 1/10 tienden. Een verschil tussen de 3 en 10 lijkt enorm, gemeten in tienden (Ze worden apart gezet met 70 eenheden!), Maar is nauwelijks merkbaar op een grafiek, waar 100 is de eerste verhoging (Het is veel, veel minder afgelegen dan de eenheid 1! ).

Titel afbeelding Lie with Statistics Step 11

Start de Y-as halverwege het bereik. Als de gegevens variëren van 11 tot 51, kunt u het laagste getal er nog lager uit laten zien en het hoogste getal er nog hoger uitzien, uw Y-as labelen zodat deze begint bij 10. Dit maakt de balk die staat voor het getal 11 is nauwelijks hoger dan de X-as, het zal bijna niets lijken tenzij iemand slim genoeg is om heel dichtbij te kijken en te zien dat de kaart begon met 10 in plaats van met 0.

De balk die 51 vertegenwoordigt, wordt 50 keer hoger dan de staaf die 11 vertegenwoordigt in een grafiek van dit type, omdat de kleinste staaf slechts 1 eenheid hoog is. Als de grafiek was begonnen op 0, zou de balk die 51 vertegenwoordigt minder dan 5 keer de hoogte van de staaf zijn geweest die 11 vertegenwoordigde.

Titel afbeelding Lie with Statistics Step 12

Gebruik de ontoereikende schaal. Elke keer dat je de woorden ziet " het is niet op schaal " In de kleine lettertjes is het waarschijnlijk dat u een voorbeeld hiervan bent tegengekomen. Het wordt niet altijd kwaadwillig gedaan, soms zijn de betrokken nummers zo verschillend dat er geen manier is om ze nauwkeurig op dezelfde pagina weer te geven. Het kan echter gemakkelijk worden gebruikt voor ongewenste doeleinden.

Een visuele weergave van de grootte kan bijvoorbeeld op een hoogteschaal worden getekend, maar niet op een brede schaal, waardoor een hoger object (bijvoorbeeld een gebouw) er ook veel dunner of breder uitziet dan het werkelijk is .

Titel afbeelding Lie with Statistics Step 13

Gebruik afbeeldingen om gegevens weg te laten. Dit wordt vaak gezien in algemene enquêtes die de resultaten verdelen in bepaalde categorieën, zoals de beroemde grafiek die laat zien wat de meest populaire term is voor een frisdrank in een bepaalde provincie in de Verenigde Staten. Op het eerste gezicht lijkt deze informatie zeer gedetailleerd, maar al snel rijzen de vragen: hoe breed zijn de onderzoeksgegevens? Wat is de drempel om het resultaat te bepalen? Wordt het gemiddelde, de mediaan of de mode gebruikt?

Als u slechts één van de resultaten van alle gebieden die u hebt bevraagd, zult gebruiken en al het andere hebt weggegooid, kunt u de resultaten gemakkelijk per gebied bepalen zonder te vermelden dat de steekproefomvang voor elk gebied erg klein was. Nogmaals, het gebrek aan concrete informatie maakt de resultaten zo moeilijk te kwantificeren.

tips

Controleer in geval van twijfel. Als u geen gedetailleerde en volledige informatie over de grootte, omvang en steekproefmethoden achter een statistiek kunt krijgen, vertrouw dit dan niet.

waarschuwingen

Het is vrij gemakkelijk om met statistieken te liegen als je eenmaal weet hoe, maar het is niet echt ethisch. Wees voorzichtig met het gebruik van de kennis die je hebt opgedaan. Gebruik het niet om iemand pijn te doen, op te lichten of op te lichten.

Delen op sociale netwerken:

Verwant