Analytics Lie

by Aug 31, 2022BI/Analytics0 comments

Analytics Lie

De bias fan analyse

 

Mark Twain sei diskutabel soksawat as: "Der binne trije soarten leagens: leagens, ferdomde leagens en analytics. " 

Wy nimme foar fanselssprekkend dat analytyk ús nuttige, aksjebere ynsjoch jout. Wat wy faaks net realisearje is hoe't ús eigen foaroardielen en dy fan oaren ynfloed hawwe op 'e antwurden dy't wy wurde jûn troch sels de meast ferfine software en systemen. Soms kinne wy ​​​​ûnearlik wurde manipulearre, mar, faker, kin it subtile en ûnbewuste foaroardielen wêze dy't yn ús analytiken krûpe. De motivaasje efter biased analytics is mannichfâldich. Soms wurde de ûnpartidige resultaten dy't wy ferwachtsje fan 'e wittenskip beynfloede troch 1) subtile karren yn hoe't de gegevens wurde presintearre, 2) inkonsistente of net-represintative gegevens, 3) hoe't AI-systemen wurde trainearre, 4) de ûnwittendheid, ynkompetinsje fan ûndersikers of oaren dy't besykje it ferhaal te fertellen, 5) de analyze sels.    

De presintaasje is biased

Guon fan 'e leagen binne makliker te spot as oaren. As jo ​​​​witte wêr't jo nei moatte sykje, kinne jo potinsjeel makliker ûntdekke misleidende grafiken en diagrammen. 

Der binne teminsten fiif manieren om misliedend werjaan fan gegevens: 1) Lit in beheinde dataset sjen, 2). Lit net-relatearre korrelaasjes sjen, 3) Lit gegevens net krekt sjen, 4) Lit gegevens ûnkonvinsjoneel sjen, of 5). Lit gegevens te ferienfâldige sjen.

Lit in beheinde dataset sjen

Beheining fan de gegevens, of hân selektearjen fan in net-willekeurige seksje fan de gegevens kin faak fertelle in ferhaal dat is net yn oerienstimming mei it grutte byld. Min sampling, of kersen picking, is as de analist brûkt in net-representative stekproef foar in fertsjintwurdigje in gruttere groep. 

Yn maart 2020, Georgia's Department of Public Health publisearre dizze grafyk as ûnderdiel fan syn deistige statusrapport. It ropt eins mear fragen op dan it antwurdet.  

Ien fan 'e dingen dy't mist is kontekst. It soe bygelyks nuttich wêze om te witten wat it persintaazje fan 'e befolking is foar elke leeftydsgroep. In oar probleem mei it ienfâldich útsjende taartdiagram is de unjildige leeftydsgroepen. De 0-17 hat 18 jier, 18-59 hat 42, 60+ is iepen, mar hat sawat 40 jier. De konklúzje, allinich jûn oan dit diagram, is dat de mearderheid fan 'e gefallen yn' e 18-59 jier âldensgroep is. De 60+ jier âlde leeftydsgroep liket minder swier beynfloede te wurden troch COVID-gefallen. Mar dit is net it hiele ferhaal.

Foar ferliking, dizze ferskillende gegevens set op de CDC webside kaart COVID-gefallen per leeftydsgroep mei de ekstra gegevens oer it persintaazje fan 'e Amerikaanske befolking dat yn elk leeftydsbereik is.  

Dit is better. Wy hawwe mear kontekst. Wy kinne sjen dat leeftydsgroepen 18-29, 30-39, 40-49 allegear in heger persintaazje gefallen hawwe as it persintaazje fan 'e leeftydsgroep yn 'e befolking. Der binne noch wat ûngelikense leeftydsgroepen. Wêrom is 16-17 in aparte leeftydsgroep? Noch altyd is dit net it heule ferhaal, mar pundits hawwe kollums skreaun, foarsizzingen makke en mandaten oer minder dan dit. Fansels binne d'r mei COVID in protte fariabelen neist leeftyd dy't beynfloedzje wurde as in posityf gefal teld: faksinaasjestatus, beskikberens fan tests, oantal kearen testen, komorbiditeiten, en in protte oaren. Oantal gefallen, sels, jout in ûnfolslein byld. De measte saakkundigen sjogge ek nei Oantal deaden, as persintaazjes fan deaden per 100,000 befolking, of saak-deaden om te sjen hoe't COVID elke leeftydsgroep beynfloedet.

Lit unrelatearre korrelaasjes sjen

Fansels is der in sterke korrelaasje tusken Amerikaanske útjeften oan wittenskip, romte en technology en it oantal selsmoarden troch ophingjen, strangulaasje en fersmoarging. De korrelaasje is 99.79%, hast in perfekte wedstriid.  

Wa soe lykwols it gefal meitsje dat dizze op ien of oare manier besibbe binne, of de iene de oare feroarsaket? D'r binne oare minder ekstreme foarbylden, mar net minder falsk. D'r is in ferlykbere sterke korrelaasje tusken Letters yn Winning Word of Scripps National Spelling Bee en Oantal minsken fermoarde troch venomous spinnen. Tafal? Do beslútst.

In oare manier om dizze gegevens yn kaart te bringen dy't minder misleidend kinne wêze soe wêze om nul op beide Y-assen op te nimmen.

Toane gegevens ûnkrekt

Fan Hoe kinne jo gegevens min werjaan, presintearre de Amerikaanske steat Georgia de Top 5 Counties mei it grutste oantal befêstige COVID-19-gefallen.

Sjocht der legit út, krekt? D'r is dúdlik in delgeande trend fan befêstige COVID-19-gefallen. Kinne jo de X-as lêze? De X-as stiet foar tiid. Typysk, datums sille tanimme fan links nei rjochts. Hjir sjogge wy in bytsje tiidreizen op 'e X-as: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

Wachtsje? Wat? De X-as is net gronologysk sortearre. Dus, sa moai as de trend der útsjocht, kinne wy ​​gjin konklúzjes lûke. As de datums besteld binne, toane de balken foar it oantal gefallen mear in sawtooth-patroan dan elke soarte fan trend.

De maklike oplossing hjir is om de datums te sortearjen lykas in kalinder docht.

Lit gegevens ûnkonvinsjoneel sjen

Wy binne allegear drok. Us harsens hawwe ús leard om rappe oardielen te meitsjen basearre op oannames dy't konsekwint west hawwe yn ús wrâld. Bygelyks, elke grafyk dy't ik ea sjoen haw toant de x- en y-assen dy't gearkomme op nul, of leechste wearden. As jo ​​​​koart nei dizze kaart sjogge, hokker konklúzjes kinne jo lûke oer it effekt fan Florida's "Stan jo grûnwet.”? Ik skamje my it ta te jaan, mar dizze grafyk hat my earst foar de gek hân. Jo each wurdt maklik oanlutsen nei de tekst en pylk yn 'e midden fan' e grafyk. Down is omheech yn dizze grafyk. It kin gjin leagen wêze - de gegevens binne der goed. Mar, ik moat tinke dat it bedoeld is om te ferrifeljen. As jo ​​​​it noch net sjoen hawwe, is nul op 'e y-as boppe-oan. Dat, as gegevens nei ûnderen tanimme, betsjut dat mear deaden. Dizze grafyk lit sjen dat it oantal moarden mei fjoerwapens ferhege nei 2005, oanjûn troch de trend going del.

Lit de gegevens te ferienfâldige sjen

Ien foarbyld fan tefolle ferienfâldiging fan 'e gegevens kin sjoen wurde as analysts profitearje fan Simpson's Paradox. Dit is in ferskynsel dat optreedt as aggregearre gegevens in oare konklúzje lykje te toanen as wannear't se skieden binne yn subsets. Dizze trap is maklik te fallen as jo sjogge nei aggregearre persintaazjes op heech nivo. Ien fan 'e dúdlikste yllustraasjes fan Simpson's Paradox oan it wurk is relatearre oan batting gemiddelden.  

Hjir sjogge wy dat Derek Jeter in hegere totale batting gemiddelde hat as David Justice foar 1995 en 1996 seizoenen. De paradoks komt binnen as wy realisearje dat justysje Jeter yn 'e battinggemiddelde beide jierren fersloech. As jo ​​sjogge foarsichtich, is it logysk as jo beseffe dat Jeter hie rûchwei 4x mear at-bats (de neamer) yn 1996 op in .007 leger gemiddelde yn 1996. Wylst Justysje hie rûchwei 10x it oantal at-bats op allinne . 003 heger gemiddelde yn 1995.

De presintaasje liket rjochtlinich, mar Simpson's Paradox hat, bewust, of ûnbewust, laat ta ferkearde konklúzjes. Koartlyn binne d'r foarbylden west fan Simpson's Paradox yn it nijs en op sosjale media relatearre oan faksins en COVID-stjerte. Ien chart toant in linegrafyk dy't fergeliket de deadsraten tusken faksinearre en net-yntinearre foar minsken fan 10-59 jier âld. De grafyk toant oan dat de net-faksinearre konsekwint in legere mortaliteitssifer hawwe. Wat bart hjir?  

It probleem is fergelykber mei dejinge dy't wy sjogge mei battinggemiddelden. De neamer yn dit gefal is it oantal yndividuen yn elke leeftydsgroep. De grafyk kombinearret groepen dy't ferskate útkomsten hawwe. As wy nei de âldere leeftydsgroep, 50-59 , apart sjogge, sjogge wy dat de faksinen better farre. Likegoed, as wy nei 10-49 sjogge, sjogge wy ek dat de ynintingen better geane. Paradoksaal genôch, as jo nei de kombineare set sjogge, lykje unvaccinated in slimmer resultaat te hawwen. Op dizze manier kinne jo in saak meitsje foar tsjinoerstelde arguminten mei de gegevens.

De gegevens binne biased

Gegevens kinne net altyd fertroud wurde. Sels yn 'e wittenskiplike mienskip joech mear as in tredde fan 'e ûndersochte ûndersikers ta "Twifelbere ûndersykspraktiken."  Oar ûndersyk fraude detective seit, "D'r is heul wierskynlik folle mear fraude yn gegevens - tabellen, linegrafiken, folchoardergegevens [- dan wy eins ûntdekke]. Elkenien dy't oan har keukentafel sit kin wat sifers yn in spreadsheet pleatse en in linegrafyk meitsje dy't oertsjûgjend liket.

Dizze earste foarbyld liket as immen die krekt dat. Ik sis net dat dit fraude is, mar as in enkête genereart it gewoan gjin gegevens dy't bydrage oan in ynformearre beslút. It liket derop dat de enkête respondinten frege oer har miening oer tankstasjonkoffie, of in oar relevant aktueel barren. 

  1. superb 
  2. Grut
  3. Hiel goed 

Ik haw de Twitter-post besnien om ferwizings nei de skuldige partij te ferwiderjen, mar dit is de eigentlike folsleine grafyk fan 'e definitive resultaten fan' e enkête. Undersiken lykas dit binne net ûngewoan. Fansels sil elke grafyk oanmakke út 'e gegevens dy't ûntsteane út' e antwurden sjen litte dat de kofje yn kwestje net te missen is.  

It probleem is dat as jo dizze enkête krigen hiene en gjin antwurd fine dat past by jo tinken, jo de enkête oerslaan. Dit kin in ekstreem foarbyld wêze fan hoe ûnbetroubere gegevens kinne wurde makke. Min enkêteûntwerp kin lykwols liede ta minder antwurden en dyjingen dy't reagearje hawwe mar ien miening, it is gewoan in kwestje fan graad. De gegevens binne biased.

Dit twadde foarbyld fan data bias is fan 'e bestannen fan "Slimste COVID 19 misleidende grafiken. " 

Nochris, dit is subtyl en net folslein dúdlik. De staafgrafyk toant in glêde - hast te glêd - delgong yn it persintaazje positive COVID-19-gefallen oer de tiid foar in provinsje yn Florida. Jo kinne maklik de konklúzje lûke dat gefallen ôfnimme. Dat is geweldich, de fisualisaasje fertsjintwurdiget de gegevens krekt. It probleem sit yn de gegevens. Dat, it is in mear ferrifeljende foaroardielen, om't jo it net kinne sjen. It is bakt yn 'e gegevens. De fragen dy't jo moatte stelle, omfetsje, wa wurdt hifke? Mei oare wurden, wat is de neamer, of de befolking wêrfan wy nei in persintaazje sjogge. De oanname is dat it de hiele befolking is, of op syn minst in represintative stekproef.

Yn dizze perioade waarden lykwols yn dizze provinsje tests allinich jûn oan in beheind oantal minsken. Se moasten COVID-like symptomen hawwe, of wiene koartlyn reizge nei in lân op 'e list mei hot spots. Derneist ferwûnderje de resultaten it feit dat elke positive test waard teld en elke negative test waard teld. Typysk, as in yndividu posityf testte, soene se opnij testen as it firus syn rin wie en soe negatyf testen. Dat, yn in sin, is d'r foar elk positive gefal in negative testgefal dy't it annuleart. De grutte mearderheid fan 'e tests is negatyf en de negative tests fan elk yndividu waarden teld. Jo kinne sjen hoe't de gegevens bias binne en net bysûnder nuttich foar it meitsjen fan besluten. 

AI-ynput en training is bias

D'r binne op syn minst twa manieren wêrop AI kin liede ta biased resultaten: begjinnend mei biased gegevens, of it brûken fan biased algoritmen om jildige gegevens te ferwurkjen.  

Biased Input

In protte fan ús binne ûnder de yndruk dat AI kin wurde fertroud om de sifers te krimpen, har algoritmen ta te passen en in betroubere analyze fan 'e gegevens út te spuien. Keunstmjittige yntelliginsje kin allinich sa tûk wêze as it is oplaat. As de gegevens dêr't it op traind is ûnfolslein binne, kinne de resultaten of konklúzjes ek net fertroud wurde. Fergelykber mei it gefal hjirboppe fan bias foar ûndersyk, binne d'r in oantal manieren wêrop gegevens kinne wêze foarsteld yn masine learen:.  

  • Sample bias - de training dataset is net represintatyf foar de hiele befolking.
  • Útsluting bias - soms wat lykje te wêzen outliers binne eins jildich, of, dêr't wy lûke de line op wat te nimmen (zip koades, datums, etc).
  • Mjitting bias - de konvinsje is om altyd te mjitten fan it sintrum en de boaiem fan 'e meniskus, bygelyks by it mjitten fan floeistoffen yn volumetryske flessen of testbuizen (útsein kwik.)
  • Recall bias - as ûndersyk hinget ôf fan dielnimmers ûnthâld.
  • Observer bias - wittenskippers, lykas alle minsken, binne mear oanstriid om te sjen wat se ferwachtsje te sjen.
  • Seksistyske en rasistyske bias - seks of ras kin oer- of ûnderfertsjintwurdige wêze.  
  • Association bias - de gegevens fersterket stereotypen

Foar AI om betroubere resultaten werom te jaan, moatte har trainingsgegevens de echte wrâld fertsjintwurdigje. Lykas wy hawwe besprutsen yn in earder blogartikel, is de tarieding fan gegevens kritysk en lykas alle oare gegevensprojekten. Unbetroubere gegevens kinne masine-learsystemen de ferkearde les leare en sille resultearje yn 'e ferkearde konklúzje. Dat sei: "Alle gegevens binne biased. Dit is gjin paranoia. Dit is feit." - Dr. Sanjiv M. Narayan, Stanford University School of Medicine.

It brûken fan biased gegevens foar training hat laat ta in oantal opmerklike AI-fouten. (foarbylden hjir en hjir, ûndersyk hjir..)

Biased Algoritmen

In algoritme is in set fan regels dy't in ynfier akseptearje en útfier makket om in saaklik probleem te beantwurdzjen. Se binne faak goed definiearre beslútbeammen. Algoritmen fiele as swarte doazen. Nimmen is wis op hoe't se wurkje, ofen, net iens de bedriuwen dy't se brûke. Oh, en se binne faak proprietêr. Har mysterieuze en komplekse aard is ien fan 'e redenen wêrom't biased algoritmen sa ferrifeljend binne. . 

Beskôgje AI-algoritmen yn medisinen, HR as finânsjes dy't ras yn oerweging nimt. As ras in faktor is, kin it algoritme net rasseblyn wêze. Dit is net teoretysk. Problemen lykas dizze binne ûntdutsen yn 'e echte wrâld mei AI yn ynhier, ride-share, lienoanfraachs, en niertransplantaasjes

De ûnderste rigel is dat as jo gegevens of algoritmen min binne, slimmer binne as nutteloos, se kinne gefaarlik wêze. D'r is sa'n ding as in "algoritmyske kontrôle.” It doel is om organisaasjes te helpen de potinsjele risiko's te identifisearjen dy't relatearre binne oan it algoritme as it relatearret oan earlikens, bias en diskriminaasje. Op oare plakken, facebook brûkt AI om bias yn AI te bestriden.

Minsken binne biased

Wy hawwe minsken oan beide kanten fan 'e fergeliking. Minsken meitsje de analyse op en minsken krije de ynformaasje. Der binne ûndersikers en der binne lêzers. Yn elke kommunikaasje kinne d'r problemen wêze yn 'e oerdracht of ûntfangst.

Nim bygelyks waar. Wat betsjut "in kâns op rein"? Earst, wat betsjutte meteorologen as se sizze dat der kâns is op rein? Neffens it Amerikaanske regear National Weather Service, in kâns op rein, of wat se neame Probability of Precipitation (PoP), is ien fan 'e minst begrepen eleminten yn in waarberjocht. It hat wol in standert definysje: "De kâns op delslach is gewoan in statistyske kâns fan 0.01 ″ inch [sic] fan [sic] mear delslach op in bepaald gebiet yn it opjûne prognosegebiet yn 'e opjûne tiidperioade." It "opjûne gebiet" is it prognosegebiet, of broadcast gebiet. Dat betsjut dat de offisjele kâns op delslach hinget ôf fan it betrouwen dat it earne yn it gebiet reine sil en it persintaazje fan it gebiet dat wiet wurdt. Mei oare wurden, as de meteorolooch der wis fan is dat it sil reine yn it prognosegebiet (Confidence = 100%), dan fertsjintwurdiget de PoP it diel fan it gebiet dat rein sil ûntfange.  

Parysstrjitte; Rainy Day, Gustave Caillebotte (1848-1894) Chicago Art Institute Public Domain

De kâns op rein is ôfhinklik fan sawol betrouwen as gebiet. Dat wist ik net. Ik tink dat oare minsken dat ek net witte. Sawat 75% fan 'e befolking begrypt net krekt hoe't PoP wurdt berekkene, of wat it is bedoeld om te fertsjintwurdigjen. Dat, wurde wy ferrifelje, of is dit in probleem fan waarnimming. Litte wy it delslachbelibjen neame. Skuldje wy de waarfoarsizzer? Om earlik te wêzen, der is wat betizing ûnder waarfoarsizzers ek. Yn ien ûndersyk, 43% fan 'e ûndersochte meteorologen sei dat d'r heul lyts konsistinsje is yn 'e definysje fan PoP.

De analyze sels is biased

Fan 'e fiif beynfloedzjende faktoaren kin de analyze sels de meast ferrassende wêze. Yn wittenskiplik ûndersyk dat resulteart yn in besjoen papier wurdt publisearre, typysk wurdt in teory hypoteze, metoaden wurde definiearre om de hypoteze te testen, gegevens wurde sammele, dan wurde de gegevens analysearre. It type analyze dat wurdt dien en hoe't it wurdt dien wurdt ûnderskatte yn hoe't it beynfloedet de konklúzjes. Yn in papier publisearre earder dit jier (jannewaris 2022), yn it International Journal of Cancer, evaluearren de auteurs oft resultaten fan randomisearre kontroleare proeven en retrospektive observaasjeûndersiken. Har befiningen konkludearren dat,

Troch fariearjen fan analytyske karren yn ferlykjend ûndersyk nei effektiviteit, genereare wy tsjinstridige útkomsten. Us resultaten suggerearje dat guon retrospektive observaasjeûndersiken kinne fine dat in behanneling de resultaten foar pasjinten ferbettert, wylst in oare ferlykbere stúdzje kin fine dat it net docht, gewoan basearre op analytyske karren.

Yn it ferline, by it lêzen fan in wittenskiplik tydskriftartikel, as jo binne lykas my, hawwe jo miskien tocht dat de resultaten of konklúzjes allegear oer de gegevens geane. No docht bliken dat de resultaten, of oft de earste hypoteze wurdt befêstige of wjerlein, kin ek ôfhingje fan de metoade fan analyze.

Oar studearje fûn ferlykbere resultaten. It artikel, In protte analysten, ien dataset: Transparant meitsje hoe fariaasjes yn analytyske karren de resultaten beynfloedzje, beskriuwt hoe't se deselde gegevensset joegen oan 29 ferskillende teams om te analysearjen. Gegevensanalyse wurdt faak sjoen as in strikt, goed definiearre proses dat liedt ta ien konklúzje.  

Nettsjinsteande remonstraasjes fan metodologen, is it maklik om it feit te oersjen dat resultaten kinne ôfhingje fan 'e keazen analytyske strategy, dy't sels is trochdrenkt mei teory, oannames en karpunten. Yn in protte gefallen binne d'r in protte ridlike (en in protte ûnferstannige) oanpak foar it evaluearjen fan gegevens dy't drage op in ûndersyksfraach.

De ûndersikers hawwe de analyze fan 'e gegevens crowd-sourced en kamen ta de konklúzje dat alle ûndersyk subjektive besluten omfettet - ynklusyf hokker type analyze te brûken - dy't de ultime útkomst fan 'e stúdzje kinne beynfloedzje.

De oanbefelling fan in oar ûndersiker dy't de boppesteande stúdzje analysearre, moat foarsichtich wêze by it brûken fan ien papier by it meitsjen fan besluten of it lûken fan konklúzjes.

Bias oanpakke yn Analytics

Dit is gewoan bedoeld om in warskôgingsferhaal te wêzen. Kennis kin ús beskermje tsjin ynnommen wurde troch oplichting. Hoe bewuster fan mooglike metoaden dy't in scanner kin brûke om ús te ferrifeljen, hoe minder kâns dat wy wurde nommen yn, sis, troch, sis, in ferkearde rjochting fan in pickpocket, of it soepele praat fan in Ponzi-spiel. Sa is it mei it begripen en erkennen fan potensjele foaroardielen dy't ús analytiken beynfloedzje. As wy ús bewust binne fan potinsjele ynfloeden, kinne wy ​​it ferhaal miskien better presintearje en úteinlik bettere besluten nimme.