Analytics Leuen

by Augustus 31, 2022BI/analise0 kommentaar

Analytics Leuen

Die vooroordeel van analise

 

Mark Twain het debatteerbaar iets gesê soos: "Daar is drie soorte leuens: leuens, verdomde leuens en analytics. " 

Ons aanvaar as vanselfsprekend dat analise ons nuttige, uitvoerbare insigte gee. Wat ons dikwels nie besef nie, is hoe ons eie vooroordele en dié van ander die antwoorde wat ons gegee word deur selfs die mees gesofistikeerde sagteware en stelsels beïnvloed. Soms word ons dalk oneerlik gemanipuleer, maar, meer algemeen, kan dit subtiele en onbewustelike vooroordele wees wat in ons ontledings insluip. Die motivering agter bevooroordeelde analise is veelvuldig. Soms word die onpartydige resultate wat ons van die wetenskap verwag beïnvloed deur 1) subtiele keuses in hoe die data aangebied word, 2) inkonsekwente of nie-verteenwoordigende data, 3) hoe KI-stelsels opgelei word, 4) die onkunde, onbevoegdheid van navorsers of ander wat probeer om die storie te vertel, 5) die analise self.    

Die aanbieding is bevooroordeeld

Sommige van die leuens is makliker om raak te sien as ander. As jy weet waarna om te kyk, kan jy moontlik makliker opspoor misleidende grafieke en kaarte. 

Daar is ten minste vyf maniere om data misleidend te vertoon: 1) Wys 'n beperkte datastel, 2). Toon onverwante korrelasies, 3) Toon data onakkuraat, 4) Toon data onkonvensioneel, of 5). Wys data oorvereenvoudig.

Wys 'n beperkte datastel

Om die data te beperk, of om 'n nie-ewekansige gedeelte van die data met die hand te kies, kan dikwels 'n storie vertel wat nie ooreenstem met die groot prentjie nie. Slegte steekproefneming, of kersiepluk, is wanneer die ontleder 'n nie-verteenwoordigende steekproef gebruik om 'n groter groep te verteenwoordig. 

In Maart 2020, Georgië se departement van openbare gesondheid het hierdie grafiek as deel van sy daaglikse statusverslag gepubliseer. Dit laat eintlik meer vrae ontstaan ​​as wat dit beantwoord.  

Een van die dinge wat ontbreek, is konteks. Dit sal byvoorbeeld nuttig wees om te weet wat die persentasie van die bevolking vir elke ouderdomsgroep is. Nog 'n probleem met die eenvoudige sirkeldiagram is die ongelyke ouderdomsgroepe. Die 0-17 het 18 jaar, 18-59 het 42, 60+ is oop einde, maar het ongeveer 40 jaar. Die gevolgtrekking, gegewe hierdie grafiek alleen, is dat die meerderheid gevalle in die ouderdomsgroep 18-59 jaar is. Dit lyk of die ouderdomsgroep 60+ minder ernstig deur COVID-gevalle geraak word. Maar dit is nie die hele storie nie.

Ter vergelyking, hierdie verskillende datastel op die CDC webwerf karteer COVID-gevalle volgens ouderdomsgroep met die bykomende data oor die persentasie Amerikaanse bevolking wat in elke ouderdomsgroep is.  

Dit is beter. Ons het meer konteks. Ons kan sien dat ouderdomsgroepe 18-29, 30-39, 40-49 almal 'n hoër persentasie gevalle het as die persentasie van die ouderdomsgroep in die bevolking. Daar is nog 'n paar ongelyke ouderdomsgroepe. Hoekom is 16-17 'n aparte ouderdomsgroep? Tog is dit nie die hele storie nie, maar kenners het rubrieke geskryf, voorspellings gemaak en mandaat oor minder as dit. Natuurlik, met COVID, is daar baie veranderlikes benewens ouderdom wat dit beïnvloed om as 'n positiewe geval getel te word: inentingstatus, beskikbaarheid van toetse, aantal kere wat getoets is, comorbiditeite, en vele ander. Aantal gevalle, self, verskaf 'n onvolledige prentjie. Die meeste kenners kyk ook na Aantal sterftes, of persentasies sterftes per 100,000 bevolking, of gevalle-sterftes om te kyk hoe COVID elke ouderdomsgroep raak.

Toon onverwante korrelasies

Natuurlik is daar 'n sterk korrelasie tussen Amerikaanse besteding aan wetenskap, ruimte en tegnologie en die aantal selfmoorde deur hang, verwurging en verstikking. Die korrelasie is 99.79%, byna 'n perfekte pasmaat.  

Wie sou egter die saak maak dat dit op een of ander manier verwant is, of die een veroorsaak die ander? Daar is ander minder ekstreme voorbeelde, maar nie minder vals nie. Daar is 'n soortgelyke sterk korrelasie tussen Letters in Winning Word of Scripps National Spelling Bee en Aantal mense wat deur giftige spinnekoppe vermoor is. Toeval? Jy besluit.

Nog 'n manier om hierdie data te karteer wat minder misleidend kan wees, sou wees om nul op albei die Y-asse in te sluit.

Wys data onakkuraat

Van Hoe om data sleg te vertoon, het die Amerikaanse staat Georgia die Top 5 Counties met die grootste aantal bevestigde COVID-19-gevalle aangebied.

Lyk wettig, reg? Daar is duidelik 'n afwaartse neiging van bevestigde COVID-19-gevalle. Kan jy die X-as lees? Die X-as verteenwoordig tyd. Tipies sal datums van links na regs toeneem. Hier sien ons 'n bietjie tydreise op die X-as: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

Wag? Wat? Die X-as is nie chronologies gesorteer nie. So, so mooi soos die neiging mag lyk, kan ons geen gevolgtrekkings maak nie. As die datums georden is, toon die stawe vir die aantal gevalle meer 'n saagtandpatroon as enige soort neiging.

Die maklike oplossing hier is om die datums te sorteer soos 'n kalender doen.

Wys data onkonvensioneel

Ons is almal besig. Ons brein het ons geleer om vinnige oordele te maak gebaseer op aannames wat konsekwent in ons wêreld was. Byvoorbeeld, elke grafiek wat ek nog ooit gesien het, toon die x- en y-asse wat op nul, of laagste waardes ontmoet. As u kortliks na hierdie grafiek kyk, watter gevolgtrekkings kan u maak oor die effek van Florida's “Staan jou grondwet.”? Ek is skaam om dit te erken, maar hierdie grafiek het my eers geflous. Jou oog word gerieflik na die teks en pyl in die middel van die grafika getrek. Af is op in hierdie grafiek. Dit is dalk nie 'n leuen nie - die data is reg daar. Maar ek moet dink dat dit bedoel is om te mislei. As jy dit nog nie gesien het nie, is nul op die y-as bo-aan. Dus, namate data afneem, beteken dit meer sterftes. Hierdie grafiek toon dat die aantal moorde met vuurwapens verhoog na 2005, aangedui deur die neiging aan die gang af.

Wys die data oorvereenvoudig

Een voorbeeld van oorvereenvoudiging van die data kan gesien word wanneer ontleders voordeel trek uit Simpson se Paradox. Dit is 'n verskynsel wat voorkom wanneer saamgevoegde data blykbaar 'n ander gevolgtrekking toon as wanneer dit in subversamelings geskei word. Dit is maklik om in hierdie strik te trap wanneer daar na hoëvlak-aggregeerde persentasies gekyk word. Een van die duidelikste illustrasies van Simpson se Paradoks by die werk hou verband met kolfgemiddeldes.  

Hier sien ons dat Derek Jeter 'n hoër algehele kolfgemiddeld het as David Justice vir 1995 en 1996 seisoene. Die paradoks kom in wanneer ons besef dat Justice Jeter in die kolfgemiddelde albei daardie jare oorwin het. As jy mooi kyk, maak dit sin as jy besef dat Jeter in 4 ongeveer 1996x meer kolfkolwe (die noemer) gehad het teen 'n 007 laer gemiddeld in 1996. Terwyl Justice ongeveer 10x die aantal kolfkolwe op slegs . 003 hoër gemiddeld in 1995.

Die aanbieding kom reguit voor, maar Simpson se Paradoks het, bewustelik, of onbewustelik, tot verkeerde gevolgtrekkings gelei. Onlangs was daar voorbeelde van Simpson se Paradox in die nuus en op sosiale media wat verband hou met entstowwe en COVID-sterftes. Een grafiek toon 'n lyngrafiek wat sterftesyfers vergelyk tussen ingeënt en ongeënt vir mense van 10-59 jaar oud. Die grafiek toon dat die ongeënte konsekwent 'n laer sterftesyfer het. Wat gaan hier aan?  

Die probleem is soortgelyk aan die een wat ons met kolfgemiddeldes sien. Die noemer in hierdie geval is die aantal individue in elke ouderdomsgroep. Die grafiek kombineer groepe wat verskillende uitkomste het. As ons afsonderlik na die ouer ouderdomsgroep, 50-59 , kyk, sien ons dat die ingeënte beter vaar. Net so, as ons na 10-49 kyk, sien ons ook dat die ingeënte beter vaar. Paradoksaal genoeg, wanneer na die gekombineerde stel gekyk word, blyk dit dat ongeënte 'n slegter uitkoms het. Op hierdie manier kan jy 'n saak maak vir teenoorgestelde argumente deur die data te gebruik.

Die data is bevooroordeeld

Data kan nie altyd vertrou word nie. Selfs in die wetenskaplike gemeenskap het meer as 'n derde van die navorsers wat ondervra is, erken "Twyfelagtige navorsingspraktyke."  Nog 'n navorsingsbedrogspeurder sê: “Daar is heel waarskynlik baie meer bedrog in data – tabelle, lyngrafieke, volgordedata [– as wat ons eintlik ontdek]. Enigiemand wat by hul kombuistafel sit, kan ’n paar syfers in ’n sigblad plaas en ’n lyngrafiek maak wat oortuigend lyk.”

Hierdie eerste byvoorbeeld lyk of iemand dit net gedoen het. Ek sê nie dit is bedrog nie, maar as 'n opname genereer dit net geen data wat bydra tot 'n ingeligte besluit nie. Dit lyk asof die opname respondente gevra het oor hul mening oor vulstasiekoffie, of 'n ander relevante huidige gebeurtenis. 

  1. Superb 
  2. Groot
  3. Baie goeie 

Ek het die Twitter-plasing geknip om verwysings na die skuldige party te verwyder, maar dit is die werklike hele grafiek van die finale resultate van die opname. Opnames soos hierdie is nie ongewoon nie. Dit is duidelik dat enige grafiek wat geskep word uit die data wat uit die antwoorde voortspruit, sal wys dat die betrokke koffie nie gemis moet word nie.  

Die probleem is dat as jy hierdie opname gekry het en nie 'n antwoord kry wat by jou denke pas nie, jy die opname sou oorslaan. Dit kan 'n uiterste voorbeeld wees van hoe onbetroubare data geskep kan word. Swak opname-ontwerp kan egter tot minder antwoorde lei en diegene wat wel reageer het net een mening, dit is net 'n kwessie van graad. Die data is bevooroordeeld.

Hierdie tweede voorbeeld van data-vooroordeel is van die lêers van "Slegste COVID 19 misleidende grafieke. " 

Weereens, dit is subtiel en nie heeltemal voor die hand liggend nie. Die staafgrafiek toon 'n gladde - amper te gladde - afname in die persentasie positiewe COVID-19-gevalle oor tyd vir 'n land in Florida. Jy kan maklik die gevolgtrekking maak dat gevalle afneem. Dit is wonderlik, die visualisering verteenwoordig die data akkuraat. Die probleem is in die data. So, dit is 'n meer verraderlike vooroordeel, want jy kan dit nie sien nie. Dit is in die data ingebak. Die vrae wat jy moet vra, sluit in wie word getoets? Met ander woorde, wat is die noemer, of die bevolking waarvan ons na 'n persentasie kyk. Die aanname is dat dit die hele bevolking is, of ten minste 'n verteenwoordigende steekproef.

Gedurende hierdie tydperk, in hierdie land, is toetse egter slegs aan 'n beperkte aantal mense gegee. Hulle moes COVID-agtige simptome hê, of het onlangs na 'n land op die lys van hot spots gereis. Daarbenewens verwar die resultate die feit dat elke positiewe toets getel is en elke negatiewe toets getel is. Tipies, wanneer 'n individu positief getoets het, sou hulle weer toets wanneer die virus sy verloop het en negatief getoets het. Dus, in 'n sekere sin, vir elke positiewe geval, is daar 'n negatiewe toetsgeval wat dit uitkanselleer. Die oorgrote meerderheid van die toetse is negatief en elke individu se negatiewe toetse is getel. Jy kan sien hoe die data bevooroordeeld is en nie besonder nuttig is om besluite te neem nie. 

KI-invoer en -opleiding is bevooroordeeld

Daar is ten minste twee maniere waarop KI tot bevooroordeelde resultate kan lei: begin met bevooroordeelde data, of gebruik bevooroordeelde algoritmes om geldige data te verwerk.  

Bevooroordeelde insette

Baie van ons is onder die indruk dat KI vertrou kan word om die getalle te knak, sy algoritmes toe te pas en 'n betroubare ontleding van die data uit te spoeg. Kunsmatige intelligensie kan net so slim wees as wat dit opgelei is. As die data waarop dit opgelei is onvolmaak is, sal die resultate of gevolgtrekkings ook nie vertrou kan word nie. Soortgelyk aan die geval hierbo van opname-vooroordeel, is daar 'n aantal maniere waarop data kan wees bevooroordeeld in masjienleer:.  

  • Steekproefvooroordeel – die opleidingdatastel is nie verteenwoordigend van die hele populasie nie.
  • Uitsluitingsvooroordeel – soms is dit wat na uitskieters blyk te wees, eintlik geldig, of, waar ons die lyn trek oor wat om in te sluit (poskodes, datums, ens.).
  • Meetvooroordeel – die konvensie is om altyd vanaf die middel en onderkant van die meniskus te meet, byvoorbeeld wanneer vloeistowwe in volumetriese flesse of proefbuise (behalwe kwik) gemeet word.
  • Herroep vooroordeel – wanneer navorsing afhang van deelnemers se geheue.
  • Waarnemer-vooroordeel - wetenskaplikes, soos alle mense, is meer geneig om te sien wat hulle verwag om te sien.
  • Seksistiese en rassistiese vooroordeel – seks of ras kan oor- of onderverteenwoordig wees.  
  • Assosiasie-vooroordeel – die data versterk stereotipes

Vir KI om betroubare resultate te lewer, moet sy opleidingsdata die werklike wêreld verteenwoordig. Soos ons in 'n vorige blogartikel bespreek het, is die voorbereiding van data krities en soos enige ander dataprojek. Onbetroubare data kan masjienleerstelsels die verkeerde les leer en sal tot die verkeerde gevolgtrekking lei. Dit gesê: "Alle data is bevooroordeeld. Dit is nie paranoia nie. Dit is feit.” – Dr. Sanjiv M. Narayan, Stanford Universiteit Skool vir Geneeskunde.

Die gebruik van bevooroordeelde data vir opleiding het gelei tot 'n aantal noemenswaardige KI-mislukkings. (Voorbeelde na hierdie skakel en na hierdie skakel, navorsing na hierdie skakel..)

Bevooroordeelde algoritmes

'n Algoritme is 'n stel reëls wat 'n inset aanvaar en uitset skep om 'n besigheidsprobleem te beantwoord. Hulle is dikwels goed gedefinieerde besluitnemingsbome. Algoritmes voel soos swart bokse. Niemand is seker hoe hulle werk nie, dikwels nie eens die nie maatskappye wat dit gebruik. O, en hulle is dikwels eie. Hul geheimsinnige en komplekse aard is een van die redes waarom bevooroordeelde algoritmes so verraderlik is. . 

Oorweeg KI-algoritmes in medisyne, HR of finansies wat ras in ag neem. As ras 'n faktor is, kan die algoritme nie rasblind wees nie. Dit is nie teoreties nie. Probleme soos hierdie is in die regte wêreld ontdek met behulp van AI in verhuring, saamry-deel, Lening aansoeks, en nieroorplantings

Die slotsom is dat as jou data of algoritmes sleg is, erger as nutteloos is, kan dit gevaarlik wees. Daar is iets soos 'n "algoritmiese oudit.” Die doel is om organisasies te help om die potensiële risiko's wat met die algoritme verband hou, te identifiseer, aangesien dit verband hou met regverdigheid, vooroordeel en diskriminasie. Elders, Facebook gebruik KI om vooroordeel in KI te beveg.

Mense is bevooroordeeld

Ons het mense aan beide kante van die vergelyking. Mense berei die ontleding voor en mense ontvang die inligting. Daar is navorsers en daar is lesers. In enige kommunikasie kan daar probleme in die uitsending of ontvangs wees.

Neem byvoorbeeld weer. Wat beteken "'n kans op reën"? Eerstens, wat bedoel meteoroloë as hulle sê daar is 'n kans op reën? Volgens die Amerikaanse regering Nasionale Weerdiens, 'n kans op reën, of wat hulle Probability of Precipitation (PoP) noem, is een van die elemente wat die minste in 'n weervoorspelling verstaan ​​word. Dit het wel 'n standaarddefinisie: "Die waarskynlikheid van neerslag is bloot 'n statistiese waarskynlikheid van 0.01″ duim [sic] van [sic] meer neerslag op 'n gegewe gebied in die gegewe voorspellingsgebied in die gespesifiseerde tydperk." Die “gegewe area” is die voorspelde area, of broadgegote area. Dit beteken dat die amptelike Waarskynlikheid van Neerslag afhang van die vertroue dat dit iewers in die gebied sal reën en die persentasie van die gebied wat nat sal word. Met ander woorde, as die meteoroloog vol vertroue is dat dit in die voorspelde area gaan reën (Confidence = 100%), dan verteenwoordig die PoP die gedeelte van die area wat reën sal ontvang.  

Parysstraat; Reënerige dag,Gustave Caillebotte (1848-1894) Chicago Art Institute Public Domain

Die kans op reën hang af van beide vertroue en area. Ek het dit nie geweet nie. Ek vermoed ander mense weet dit ook nie. Ongeveer 75% van die bevolking verstaan ​​nie akkuraat hoe PoP bereken word, of wat dit bedoel is om voor te stel nie. So, word ons geflous, of is dit 'n persepsieprobleem. Kom ons noem dit neerslagpersepsie. Blameer ons die weervoorspeller? Om eerlik te wees, is daar 'n paar verwarring onder weervoorspellers ook. In een opname, 43% van meteoroloë wat ondervra is, het gesê dat daar baie min konsekwentheid in die definisie van PoP is.

Die analise self is bevooroordeeld

Van die vyf faktore wat beïnvloed kan word, is die ontleding self dalk die verrassendste. In wetenskaplike navorsing wat daartoe lei dat 'n hersiene referaat gepubliseer word, word tipies 'n teorie veronderstel, metodes word gedefinieer om die hipotese te toets, data word ingesamel, dan word die data ontleed. Die tipe analise wat gedoen word en hoe dit gedoen word, word onderskat in hoe dit die gevolgtrekkings beïnvloed. In 'n papier vroeër vanjaar (Januarie 2022), in die International Journal of Cancer gepubliseer, het die skrywers geëvalueer of resultate van gerandomiseerde beheerde proewe en retrospektiewe waarnemingstudies. Hulle bevindinge het tot die gevolgtrekking gekom dat,

Deur analitiese keuses in vergelykende effektiwiteitsnavorsing te wissel, het ons teenstrydige uitkomste gegenereer. Ons resultate dui daarop dat sommige retrospektiewe waarnemingstudies kan vind dat 'n behandeling die uitkomste vir pasiënte verbeter, terwyl 'n ander soortgelyke studie dit nie kan vind nie, bloot gebaseer op analitiese keuses.

In die verlede, wanneer jy 'n wetenskaplike tydskrifartikel lees, as jy soos ek is, het jy dalk gedink dat die resultate of gevolgtrekkings alles oor die data gaan. Nou blyk dit dat die resultate, of of die aanvanklike hipotese bevestig of weerlê word, ook van die metode van analise kan afhang.

Nog 'n bestudeer soortgelyke resultate gevind. Die artikel, Baie ontleders, een datastel: maak deursigtig hoe variasies in analitiese keuses resultate beïnvloed, beskryf hoe hulle dieselfde datastel aan 29 verskillende spanne gegee het om te ontleed. Data-analise word dikwels gesien as 'n streng, goed gedefinieerde proses wat lei tot 'n enkele gevolgtrekking.  

Ten spyte van metodoloë se betogings, is dit maklik om die feit oor die hoof te sien dat resultate kan afhang van die gekose analitiese strategie, wat self deurspek is van teorie, aannames en keusepunte. In baie gevalle is daar baie redelike (en baie onredelike) benaderings tot die evaluering van data wat betrekking het op 'n navorsingsvraag.

Die navorsers het die ontleding van die data deur skare verkry en tot die gevolgtrekking gekom dat alle navorsing subjektiewe besluite insluit – insluitend watter tipe analise om te gebruik – wat die uiteindelike uitkoms van die studie kan beïnvloed.

Die aanbeveling van 'n ander navorser wie die bogenoemde studie ontleed het, moet versigtig wees wanneer 'n enkele vraestel gebruik word om besluite te neem of gevolgtrekkings te maak.

Aanspreek van vooroordeel in Analytics

Dit is bloot bedoel om 'n waarskuwingsverhaal te wees. Kennis kan ons beskerm teen swendelary. Hoe meer bewus is van moontlike metodes wat 'n skandeerder kan gebruik om ons te flous, hoe minder waarskynlik is dit dat ons ingeneem sal word deur byvoorbeeld 'n sakkeroller se verkeerde rigting, of die gladde praatjies van 'n Ponzi-spel. So is dit met die begrip en herkenning van potensiële vooroordele wat ons ontledings beïnvloed. As ons bewus is van potensiële invloede, kan ons dalk die storie beter aanbied en uiteindelik beter besluite neem.