Spredning av feilinformasjon med forferdelige instrumentbord

by August 17, 2022BI/Analytics0 kommentarer

Hvordan du sprer feilinformasjon med forferdelige dashboards

 

 

Tall i seg selv er vanskelige å lese, og enda vanskeligere å trekke meningsfulle slutninger fra. Det er ofte slik at visualisering av dataene i form av ulike grafikk og diagrammer er nødvendig for å gjøre noen reell dataanalyse. 

Men hvis du har brukt lang tid på å se på ulike grafer, har du innsett én ting for lenge siden – ikke alle datavisualiseringer er skapt like.

Dette vil være en rask oversikt over noen av de vanligste feilene folk gjør når de lager diagrammer for å representere dataene på en raskt og lettfordøyelig måte.

Dårlige kart

Når du følger opp xkcd-en i starten, er det veldig vanlig å se data satt på et kart på en måte som er forferdelig og ubrukelig. En av de største og mest vanlige lovbryterne er den som vises i tegneserien. 

Uinteressante befolkningsfordelinger

Som det viser seg, har folk en tendens til å bo i byer i disse dager. 

Du bør bare bry deg med å vise et kart hvis den forventede distribusjonen du observerer ikke stemmer overens med fordelingen av den totale befolkningen i USA.

For eksempel, hvis du solgte frossen taco og fant ut at over halvparten av salget ditt kom fra dagligvarebutikker i West Virginia til tross for deres tilstedeværelse på markeder over hele landet, ville det være ganske bemerkelsesverdig.

Å vise et kart som indikerer dette, samt hvor ellers tacoene er populære, kan gi nyttig informasjon. 

På samme måte, hvis du selger et produkt som er utelukkende på engelsk, bør du forvente at distribusjonen av kunder stemmer overens med distribusjonen av engelsktalende over hele verden. 

Dårlig kornstørrelse

En annen måte å rote til et kart er ved å velge en dårlig måte å dele opp landet geografisk i biter. Dette problemet med å finne den rette minste enheten er vanlig i hele BI, og visualiseringer er ikke et unntak.

For å gjøre det mer klart hva jeg snakker om, la oss se på to eksempler på at samme kornstørrelse har to svært forskjellige effekter.

La oss først se på noen som lager et topografisk kart over USA ved å skyggelegge punktet med høyeste høyde i hvert fylke med en annen farge langs en definert nøkkel. 

 

 

Selv om det er noe effektivt for østkysten, men når du først treffer kanten av Rockies, er det egentlig bare støy.

Du får ikke et veldig godt bilde av geografien fordi (av kompliserte historiske årsaker) fylkesstørrelser har en tendens til å bli større jo lenger vest du kommer. De forteller en historie, bare ikke en som er relevant for geografi. 

Sammenlign dette med et kart over religiøs tilhørighet etter fylke.

 

 

Dette kartet er helt effektivt, til tross for at du bruker nøyaktig samme kornstørrelse. Vi er i stand til å gjøre raske, nøyaktige og meningsfulle slutninger om regioner i USA, hvordan disse regionene kan oppfattes, hva menneskene som bor der kan tenke om seg selv og resten av landet.

Å lage et effektivt kart som et visuelt hjelpemiddel, selv om det er vanskelig, kan være veldig nyttig og oppklarende. Bare sørg for å tenke litt over hva kartet ditt prøver å kommunisere.

Dårlige søylediagrammer

Søylediagrammer er generelt mer vanlig enn informasjon presentert på et kart. De er enkle å lese, enkle å lage og generelt ganske elegante.

Selv om de er enkle å gjøre, er det noen vanlige feil folk kan gjøre mens de prøver å finne opp hjulet på nytt. 

Villedende skalaer

Et av de vanligste eksemplene på dårlige søylediagrammer er når noen gjør noe uheldig med venstre akse. 

Dette er et spesielt lumsk problem, og vanskelig å gi generelle retningslinjer. For å gjøre dette problemet litt lettere å fordøye, la oss diskutere noen eksempler. 

La oss tenke oss et selskap som lager tre produkter; Alfa-, beta- og gamma-widgeter. Lederen vil vite hvor godt de selger sammenlignet med hverandre, og BI-teamet lager en graf for dem. 

 

 

Med et øyeblikk vil lederen få inntrykk av at Alpha-widgetene langt overgår konkurrentene, mens de i virkeligheten selger Gamma-widgets med omtrent 20 % – ikke 500 % som antydet i visualiseringen.

Dette er et eksempel på en veldig åpenbart avskyelig forvrengning – eller er det det? Kunne vi tenke oss et tilfelle der akkurat den samme forvrengningen ville være mer nyttig enn en vanilje 0 – 50,000 XNUMX akse?

La oss for eksempel forestille oss det samme selskapet, bortsett fra at lederen nå ønsker å vite noe annet.

I dette tilfellet gir hver widget kun fortjeneste hvis de selger minst 45,000 XNUMX enheter. For å finne ut hvor godt hvert produkt gjør det i forhold til hverandre og i forhold til denne etasjen, går BI-teamet i gang og sender inn følgende visualisering. 

 

 

Thei er alle, i absolutte termer, innenfor et vindu på 20 % fra hverandre, men hvor nærme er de den viktige 45,000 XNUMX-grensen? 

Det ser ut som om Gamma-widgets kommer litt til kort, men er det Beta-widgets? 45,000 XNUMX-linjen er ikke engang merket.

Å forstørre grafen rundt den nøkkelaksen, i dette tilfellet, ville være svært informativt. 

Saker som disse gjør det svært vanskelig å gi generelle råd. Det er best å utvise forsiktighet. Analyser nøye hver situasjon før du strekker og beskjærer y-aksen med hensynsløs forlatelse. 

Gimmick-barer

En mye mindre skummel og enkel misbruk av søylediagrammer er når folk prøver å bli for søte med visualiseringene sine. Det er sant at et vaniljestolpediagram kan være litt kjedelig, så det er fornuftig at folk prøver å krydre det.

Et velkjent eksempel er den beryktede saken om de gigantiske latviske kvinnene.

 

 

På noen måter er dette relevant for noen problemstillinger diskutert i forrige avsnitt. Hvis skaperen av grafen hadde inkludert hele y-aksen helt til 0'0'', ville ikke indiske kvinner sett ut som nisser sammenlignet med gigantiske latviere. 

Selvsagt, hvis de bare hadde brukt stenger, ville problemet også forsvunnet. De er kjedelige, men de er også effektive.  

Dårlige kakediagrammer

Kakediagrammer er menneskehetens fiende. De er forferdelige på nesten alle måter. Dette er mer enn en lidenskapelig mening fremholdt av forfatteren, dette er objektive, vitenskapelige fakta.

Det er flere måter å få kakediagrammer feil enn det er å få dem riktige. De har ekstremt smale bruksområder, og selv i disse er det tvilsomt om de er det mest effektive verktøyet for jobben. 

Når det er sagt, la oss bare snakke om de mest alvorlige feiltrinnene.

Overfylte diagrammer

Denne feilen er ikke ekstremt vanlig, men den er ekstremt irriterende når den dukker opp. Det demonstrerer også et av de grunnleggende problemene med pi-diagrammer.

La oss se på følgende eksempel, et kakediagram som viser fordelingen av bokstavfrekvens på skriftlig engelsk. 

 

 

Når du ser på dette diagrammet, tror du at du med sikkerhet kan si at jeg er mer vanlig enn R? Eller O? Dette er å ignorere at noen av skivene er for små til å passe en etikett på dem. 

La oss sammenligne dette med et nydelig, enkelt stolpediagram. 

 

 

Poesi!

Ikke bare kan du umiddelbart se hver bokstav i forhold til alle de andre, men du får en nøyaktig intuisjon om frekvensene deres, og en lett synlig akse som viser de faktiske prosentene.

Det forrige diagrammet? Kan ikke fikses. Det er rett og slett for mange variabler. 

3D Charts

Et annet grovt misbruk av kakediagrammer er når folk lager dem i 3D, og ​​ofte vipper dem i uhellige vinkler. 

La oss se på et eksempel.

 

 

Med et øyekast ser den blå "EUL-NGL" omtrent lik ut som den røde "S&D", men det er ikke tilfelle. Hvis vi mentalt korrigerer for tilten, er forskjellen mye mye større enn det ser ut til.

Det er ingen akseptabel situasjon der denne typen 3D-grafer vil fungere, den eksisterer bare for å villede leseren med hensyn til de relative skalaene. 

Flate sektordiagrammer ser helt fine ut. 

Dårlige fargevalg

Den siste feilen folk pleier å gjøre er å velge hensynsløse fargevalg. Dette er et lite poeng sammenlignet med de andre, men det kan utgjøre en stor forskjell for folk. 

Tenk på følgende diagram. 

 

 

Sjansen er stor for at dette ser helt greit ut for deg. Alt er tydelig merket, størrelsene har store nok avvik til at det er lett å se hvordan salget sammenlignes med hverandre.

Men hvis du lider av fargeblindhet, er dette sannsynligvis veldig irriterende. 

Som en generell regel bør rød og grønn aldri brukes på samme graf, spesielt ved siden av hverandre. 

Andre fargeskjemafeil bør være åpenbare for alle, for eksempel å velge 6 forskjellige svake nyanser eller rødt.

Takeaways

Det er mange, mange flere måter å lage datavisualiseringer på som er forferdelige og hindrer hvor godt folk er i stand til å forstå data. Alle av dem kan unngås med litt omtanke.

Det er viktig å vurdere hvordan noen andre kommer til å se grafen, noen som ikke er godt kjent med dataene. Du må ha en dyp forståelse av hva målet med å se på dataene er, og hvordan du best kan fremheve disse delene uten å villede folk.