Analüütika vale

by August 31, 2022BI/Analytics0 kommentaarid

Analüütika vale

Analüüsi eelarvamus

 

Mark Twain ütles vaieldavalt midagi sellist: "Valed on kolme tüüpi: valed, neetud valed ja analytics. " 

Peame enesestmõistetavaks, et analüütika annab meile kasulikku ja teostatavat teavet. Me sageli ei mõista, kuidas meie enda ja teiste eelarvamused mõjutavad vastuseid, mida meile annab isegi kõige keerukam tarkvara ja süsteemid. Mõnikord võidakse meiega ebaausalt manipuleerida, kuid sagedamini võivad meie analüütikasse hiilida peened ja alateadlikud eelarvamused. Kallutatud analüütika taga on mitu motivatsiooni. Mõnikord mõjutavad erapooletuid tulemusi, mida me teaduselt ootame, 1) peened valikud andmete esitamise osas, 2) ebajärjekindlad või mitterepresentatiivsed andmed, 3) tehisintellektisüsteemide treenimine, 4) teadlaste või teiste katsetajate teadmatus, ebakompetentsus. loo jutustamiseks, 5) analüüs ise.    

Esitlus on kallutatud

Mõnda valet on lihtsam märgata kui teisi. Kui teate, mida otsida, saate potentsiaalset hõlpsamini tuvastada eksitavad graafikud ja diagrammid. 

Neid on vähemalt viis viisi andmete eksitavaks kuvamiseks: 1) Kuva piiratud andmekogum, 2). Näita seosetuid korrelatsioone, 3) Kuva andmed ebatäpselt, 4) Kuva andmed ebatavaliselt või 5). Kuva andmed liialt lihtsustatult.

Kuva piiratud andmekogum

Andmete piiramine või andmete mittejuhusliku osa käsitsi valimine võib sageli rääkida loo, mis pole üldpildiga kooskõlas. Halb proovivõtt ehk kirsikorjamine on siis, kui analüütik kasutab suurema rühma esindamiseks mitterepresentatiivset valimit. 

Märtsis 2020 Gruusia rahvatervise osakond avaldas selle diagrammi oma igapäevase olekuaruande osana. Tegelikult tekitab see rohkem küsimusi kui annab vastuseid.  

Üks asi, mis puudu on, on kontekst. Näiteks oleks kasulik teada, kui suur on elanikkonna protsent iga vanuserühma kohta. Lihtsa välimusega sektordiagrammi teine ​​probleem on ebaühtlased vanuserühmad. 0-17 on 18 aastat, 18-59 on 42, 60+ on avatud, kuid on umbes 40 aastat. Järeldus ainuüksi seda diagrammi arvestades on, et suurem osa juhtudest on 18–59-aastaste vanuserühmas. Üle 60-aastaste vanuserühm näib olevat COVID-i juhtudest vähem mõjutatud. Kuid see pole veel kogu lugu.

Võrdluseks, see erinev andmekogum CDC veebisait tabeldab COVID-i juhtumeid vanuserühmade kaupa koos lisaandmetega USA elanikkonna protsendi kohta igas vanusevahemikus.  

See on parem. Meil on rohkem konteksti. Näeme, et vanuserühmades 18-29, 30-39, 40-49 on kõigis haigestumiste protsent suurem kui vanuserühma protsent elanikkonnast. Endiselt on mõned ebaühtlased vanuserühmad. Miks on 16-17 omaette vanuserühm? See pole siiski kogu lugu, kuid asjatundjad on kirjutanud kolumne, teinud ennustusi ja mandaate vähemalgi määral. Ilmselgelt on COVID-i puhul lisaks vanusele palju muutujaid, mis mõjutavad positiivse juhtumina arvestamist: vaktsineerimise staatus, testide kättesaadavus, testimiste arv, kaasuvad haigused ja paljud teised. Juhtumite arv iseenesest annab ebatäieliku pildi. Enamik eksperte vaatab ka surmajuhtumite arvu või surmajuhtumite protsenti 100,000 XNUMX elaniku kohta või surmajuhtumeid, et uurida, kuidas COVID mõjutab iga vanuserühma.

Näidake mitteseotud korrelatsioone

Ilmselgelt on olemas a tugev korrelatsioon USA kulutuste vahel teadusele, kosmosele ja tehnoloogiale ning poomise, kägistamise ja lämbumise teel sooritatud enesetappude arvu vahel. Korrelatsioon on 99.79%, peaaegu täiuslik vaste.  

Kes aga võiks väita, et need on kuidagi seotud või üks põhjustab teist? On ka teisi vähem ekstreemseid näiteid, kuid mitte vähem võltsitud. Sarnane tugev korrelatsioon on Scrippsi rahvusliku õigekirja võitnud sõna kirjade ja mürgiämblike poolt tapetud inimeste arvu vahel. Kokkusattumus? Sina otsustad.

Teine võimalus nende andmete kaardistamiseks, mis võib olla vähem eksitav, on lisada mõlemale Y-teljele null.

Näita andmeid ebatäpselt

alates Kuidas andmeid halvasti kuvadaUSA Georgia osariik esitas 5 parimat maakonda, kus on kõige rohkem kinnitatud COVID-19 juhtumeid.

Tundub legaalne, eks? Kinnitatud COVID-19 juhtumite arv on selgelt vähenemas. Kas sa oskad X-telge lugeda? X-telg tähistab aega. Tavaliselt suurenevad kuupäevad vasakult paremale. Siin näeme väikest ajarännakut X-teljel: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

Oota? Mida? X-telg ei ole kronoloogiliselt sorteeritud. Nii kena, kui trend ka ei tunduks, ei saa me järeldusi teha. Kui kuupäevad on järjestatud, näitavad juhtumite arvu tulbad rohkem saehamba mustrit kui mingit trendi.

Lihtne lahendus on kuupäevade sortimine kalendri järgi.

Näita andmeid ebatavaliselt

Me kõik oleme hõivatud. Meie aju on õpetanud meid tegema kiireid otsuseid eelduste põhjal, mis on meie maailmas olnud järjekindlad. Näiteks näitab iga graafik, mida ma kunagi näinud olen, x- ja y-teljed, mis kohtuvad nulliga või kõige madalamate väärtustega. Kui vaadata seda diagrammi lühidalt, siis milliseid järeldusi saate Florida mõju kohta teha „Pidage kinni oma põhiseadusest.”? Mul on häbi seda tunnistada, kuid see graafik pettis mind alguses. Teie silm tõmmatakse mugavalt graafika keskel olevale tekstile ja noolele. Alla on sellel graafikul üleval. See ei pruugi olla vale – andmed on kõik korras. Kuid ma pean arvama, et see on mõeldud petmiseks. Kui te pole seda veel näinud, on y-telje null üleval. Seega, kui andmed vähenevad, tähendab see rohkem surmajuhtumeid. See diagramm näitab tulirelvadega mõrvade arvu kasvanud pärast 2005. aastat, mida näitab suundumus alla.

Näidake andmeid liiga lihtsustatult

Üks näide andmete liigsest lihtsustamisest on näha, kui analüütikud kasutavad ära Simpsoni paradoksi. See on nähtus, mis ilmneb siis, kui koondandmed näitavad teistsugust järeldust kui siis, kui need on jagatud alamhulkadeks. Sellesse lõksu on lihtne langeda, kui vaadata kõrgetasemelisi koondprotsente. Simpsoni paradoksi üks selgemaid illustratsioone tööl on seotud löövad keskmised.  

Siin näeme, et Derek Jeteril on 1995. ja 1996. hooajal kõrgem üldine löök keskmine kui David Justice'il. Paradoks saabub siis, kui mõistame, et Justice edestas Jeterit mõlemal aastal keskmise löömisega. Kui vaatate tähelepanelikult, on see mõttekas, kui mõistate, et Jeteril oli 4. aastal ligikaudu 1996 korda rohkem lööjaid (nimetaja), 007. aastal oli see näitaja 1996 madalam. Seevastu Justice'il oli ainult 10 korda rohkem lööjaid. 003 kõrgem keskmine 1995. aastal.

Esitlus näib otsekohene, kuid Simpsoni paradoks on teadlikult või tahtmatult viinud valede järeldusteni. Hiljuti on uudistes ja sotsiaalmeedias olnud näiteid Simpsoni paradoksist, mis on seotud vaktsiinide ja COVID-i suremusega. Üks kaardistada näitab joondiagrammi, mis võrdleb 10–59-aastaste inimeste vaktsineeritud ja vaktsineerimata suremust. Diagramm näitab, et vaktsineerimata inimeste suremus on pidevalt madalam. Mis siin toimub?  

Probleem on sarnane sellega, mida näeme löövate keskmiste puhul. Nimetajaks on antud juhul indiviidide arv igas vanuserühmas. Graafik ühendab rühmad, millel on erinevad tulemused. Kui vaadata vanemat vanuserühma, 50-59, eraldi, siis näeme, et vaktsineeritutel läheb paremini. Samamoodi, kui vaatame 10-49, näeme ka, et vaktsineeritutel läheb paremini. Paradoksaalsel kombel näib kombineeritud komplekti vaadates vaktsineerimata tulemus olevat halvem. Nii saate andmeid kasutades põhjendada vastupidiseid argumente.

Andmed on kallutatud

Andmeid ei saa alati usaldada. Isegi teadusringkondades tunnistas üle kolmandiku küsitletud teadlastest "küsitavad uurimistavad."  Teine uurimispettuste detektiiv ütleb: "Andmetes – tabelites, joondiagrammides, järjestatavates andmetes on tõenäoliselt palju rohkem pettusi [– kui me tegelikult avastame]. Igaüks, kes istub oma köögilaua taga, võib panna mõned arvud arvutustabelisse ja koostada joondiagrammi, mis tundub veenev.

See esimene näide tundub, et keegi tegi just seda. Ma ei ütle, et see on pettus, kuid küsitlusena ei genereeri see lihtsalt andmeid, mis aitaksid kaasa teadlikule otsusele. Näib, et küsitluses küsiti vastajatelt nende arvamust bensiinijaamakohvi või mõne muu asjakohase aktuaalse sündmuse kohta. 

  1. suurepärane 
  2. Suur
  3. Väga hea 

Kärpisin Twitteri postitust, et eemaldada viited süüdlasele, kuid see on kogu küsitluse lõpptulemuste tabel. Sellised küsitlused pole haruldased. Ilmselgelt näitavad kõik vastustest saadud andmete põhjal koostatud diagrammid, et kõnealust kohvi ei tohi vahele jätta.  

Probleem on selles, et kui teile oleks antud see küsitlus ja te ei leidnud teie mõtteviisile vastavat vastust, jätaksite küsitluse vahele. See võib olla äärmuslik näide ebausaldusväärsete andmete loomisest. Küsitluse kehv ülesehitus võib aga kaasa tuua vähem vastuseid ja vastajatel on ainult üks arvamus, see on vaid kraadi küsimus. Andmed on kallutatud.

See teine ​​andmete kallutatuse näide pärineb failist "COVID 19 halvimad eksitavad graafikud. " 

Jällegi on see peen ja mitte täiesti ilmne. Tulpdiagramm näitab sujuvat – peaaegu liiga sujuvat – positiivsete COVID-19 juhtumite protsendi langust aja jooksul Florida maakonnas. Võiks kergesti teha järelduse, et juhtumid vähenevad. See on suurepärane, visualiseerimine esindab andmeid täpselt. Probleem on andmetes. Niisiis, see on salakavalam eelarvamus, sest te ei näe seda. See on andmetesse sisse kirjutatud. Küsimused, mida peate esitama, hõlmavad seda, keda testitakse? Teisisõnu, mis on nimetaja ehk rahvaarvu, mille protsenti me vaatame. Eeldatakse, et see on kogu populatsioon või vähemalt esinduslik valim.

Kuid sel perioodil tehti selles maakonnas teste vaid piiratud arvule inimestele. Neil pidid olema COVID-i sarnased sümptomid või nad olid hiljuti reisinud kuumade kohtade nimekirjas olevasse riiki. Lisaks segab tulemusi asjaolu, et iga positiivne test loeti ja iga negatiivne test loendati. Tavaliselt, kui indiviidi test oli positiivne, testivad nad uuesti, kui viirus oli läbinud, ja andis negatiivse tulemuse. Seega on teatud mõttes iga positiivse juhtumi puhul negatiivne testjuhtum, mis selle tühistab. Valdav enamus teste on negatiivsed ja iga inimese negatiivsed testid arvestati. Näete, kuidas andmed on kallutatud ega ole otsuste tegemisel eriti kasulikud. 

AI sisend ja koolitus on kallutatud

Tehisintellekt võib viia kallutatud tulemusteni vähemalt kahel viisil: alustades kallutatud andmetest või kasutades kehtivate andmete töötlemiseks kallutatud algoritme.  

Kallutatud sisend

Paljudele meist on jäänud mulje, et tehisintellekti saab usaldada numbrite krigistamisele, algoritmide rakendamisele ja andmete usaldusväärse analüüsi väljasaatmisele. Tehisintellekt saab olla ainult nii tark, kuivõrd ta on treenitud. Kui andmed, mille põhjal seda koolitatakse, on ebatäiuslikud, ei saa ka tulemusi ega järeldusi usaldada. Sarnaselt ülaltoodud uuringu kallutatuse juhtumile on andmete esitamiseks mitmeid viise erapooletu masinõppes:.  

  • Valimi kallutatus – koolituse andmestik ei esinda kogu populatsiooni.
  • Väljajätmise kallutatus – mõnikord on kõrvalekalded tegelikult kehtivad või kui me tõmbame piiri sellele, mida lisada (postiindeksid, kuupäevad jne).
  • Mõõtmise kõrvalekalle – tava on alati mõõta meniski keskelt ja alt, näiteks mõõtes vedelikke mõõtekolbidesse või katseklaasidesse (välja arvatud elavhõbe).
  • Meenutamise eelarvamus – kui uurimine sõltub osalejate mälust.
  • Vaatlejate eelarvamus – teadlased, nagu kõik inimesed, kalduvad rohkem nägema seda, mida nad ootavad.
  • Seksistlik ja rassistlik eelarvamus – seks või rass võib olla üle- või alaesindatud.  
  • Assotsiatsiooni eelarvamus – andmed tugevdavad stereotüüpe

Selleks, et tehisintellekt annaks usaldusväärseid tulemusi, peavad selle koolitusandmed esindama tegelikku maailma. Nagu me eelmises ajaveebi artiklis arutlesime, on andmete ettevalmistamine kriitiline ja nagu iga muu andmeprojekt. Ebausaldusväärsed andmed võivad anda masinõppesüsteemidele vale õppetunni ja viia vale järelduseni. See ütles: "Kõik andmed on kallutatud. See ei ole paranoia. See on fakt." – Dr Sanjiv M. Narayan, Stanfordi ülikooli meditsiinikool.

Kallutatud andmete kasutamine koolitusel on toonud kaasa mitmeid märkimisväärseid tehisintellekti tõrkeid. (Näited siin ja siin, uurimistöö siin..)

Kallutatud algoritmid

Algoritm on reeglite kogum, mis aktsepteerib sisendit ja loob väljundi, et vastata äriprobleemile. Need on sageli täpselt määratletud otsustuspuud. Algoritmid tunduvad nagu mustad kastid. Keegi pole sageli kindel, kuidas nad töötavad, isegi mitte neid kasutavad ettevõtted. Oh, ja need on sageli varalised. Nende salapärane ja keeruline olemus on üks põhjusi, miks kallutatud algoritmid on nii salakavalad. . 

Kaaluge tehisintellekti algoritme meditsiinis, personalijuhtimises või rahanduses, mis võtab arvesse rassi. Kui tegur on rass, ei saa algoritm olla rassiliselt pime. See ei ole teoreetiline. Sellised probleemid on avastatud reaalses maailmas, kasutades tehisintellekti rentides, sõidujagamine, laenutaotluss ja neerusiirdamised

Põhimõte on see, et kui teie andmed või algoritmid on halvad, on hullemad kui kasutud, võivad need olla ohtlikud. On olemas selline asi nagu "algoritmiline audit.” Eesmärk on aidata organisatsioonidel tuvastada algoritmiga seotud võimalikud riskid, mis on seotud õigluse, erapoolikuse ja diskrimineerimisega. mujal, Facebook kasutab tehisintellekti, et võidelda tehisintellekti eelarvamustega.

Inimesed on erapoolikud

Meil on inimesi võrrandi mõlemal poolel. Inimesed valmistavad analüüsi ette ja inimesed saavad teavet. On uurijaid ja on lugejaid. Igas suhtluses võib esineda probleeme edastamise või vastuvõtmisega.

Võtke näiteks ilm. Mida tähendab "vihma võimalus"? Esiteks, mida meteoroloogid mõtlevad, kui nad ütlevad, et vihma võimalus on? USA valitsuse sõnul National Weather Service, vihma võimalus või see, mida nad kutsuvad sademete tõenäosuseks (PoP), on üks ilmaprognoosi kõige vähem mõistetavaid elemente. Sellel on standarddefinitsioon: "Sademete tõenäosus on lihtsalt statistiline tõenäosus 0.01 tolli [sic] rohkem sademeid antud piirkonnas antud prognoosipiirkonnas kindlaksmääratud ajavahemikul." "Antud piirkond" on prognoositav piirkond või broadvalatud ala. See tähendab, et ametlik sademete tõenäosus sõltub kindlustundest, et kuskil piirkonnas sajab, ja sellest, kui palju protsentuaalset ala märjaks saab. Teisisõnu, kui meteoroloog on kindel, et prognoositavas piirkonnas hakkab vihma sadama (kindlus = 100%), siis PoP tähistab seda piirkonna osa, mis sajab.  

Pariisi tänav; Vihmane päev,Gustave Caillebotte (1848-1894) Chicago kunstiinstituut, avalik domain

Vihma võimalus sõltub nii enesekindlusest kui ka piirkonnast. Ma ei teadnud, et. Ma kahtlustan, et ka teised ei tea seda. Umbes 75% elanikkonnast ei saa täpselt aru, kuidas PoP arvutatakse või mida see kujutab. Niisiis, kas meid tehakse lolliks või on see tajuprobleem. Nimetagem seda sademete tajumiseks. Kas süüdistame ilmaennustajat? Ausalt öeldes on mõned segadus ka ilmaennustajate seas. Ühes uuring43% küsitletud meteoroloogidest ütles, et PoP määratlus on väga vähe järjepidev.

Analüüs ise on kallutatud

Viiest mõjutegurist võib analüüs ise olla kõige üllatavam. Teadusuuringutes, mille tulemusel avaldatakse retsenseeritud artikkel, püstitatakse tavaliselt hüpotees, määratletakse meetodid hüpoteesi kontrollimiseks, kogutakse andmeid ja seejärel analüüsitakse andmeid. Tehtava analüüsi tüüp ja kuidas seda tehakse, on alahinnatud, kuna see mõjutab järeldusi. Sees paber Selle aasta alguses (jaanuar 2022) avaldatud ajakirjas International Journal of Cancer hindasid autorid randomiseeritud kontrollitud uuringute ja retrospektiivsete vaatlusuuringute tulemusi. Nende järeldused jõudsid järeldusele, et

Erinevate analüütiliste valikute tõhususe võrdlevas uuringus andsime vastupidised tulemused. Meie tulemused viitavad sellele, et mõned retrospektiivsed vaatlusuuringud võivad leida, et ravi parandab patsientide tulemusi, samas kui teises sarnases uuringus võib see lihtsalt analüütiliste valikute põhjal olla mitte.

Varem võisite minu moodi teadusajakirja artiklit lugedes mõelda, et tulemused või järeldused puudutavad ainult andmeid. Nüüd selgub, et analüüsimeetodist võivad sõltuda ka tulemused või see, kas esialgne hüpotees saab kinnitust või ümberlükkamist.

Teine õppima leidnud sarnaseid tulemusi. Artikkel, Paljud analüütikud, üks andmekogum: muutke läbipaistvaks, kuidas analüütiliste valikute erinevused mõjutavad tulemusi, kirjeldab, kuidas nad andsid analüüsimiseks sama andmekogumi 29 erinevale meeskonnale. Andmete analüüsi peetakse sageli rangeks ja täpselt määratletud protsessiks, mis viib ühe järelduseni.  

Hoolimata metodoloogide etteheitest on lihtne mööda vaadata tõsiasjast, et tulemused võivad sõltuda valitud analüüsistrateegiast, mis ise on läbi imbunud teooriast, eeldustest ja valikupunktidest. Paljudel juhtudel on uurimisküsimusega seotud andmete hindamiseks palju mõistlikke (ja palju ebamõistlikke) lähenemisviise.

Teadlased koostasid andmete analüüsi ja jõudsid järeldusele, et kõik uuringud hõlmavad subjektiivseid otsuseid, sealhulgas seda, millist tüüpi analüüsi kasutada, mis võivad mõjutada uuringu lõpptulemust.

Teise soovitus uurija Kes ülaltoodud uuringut analüüsis, peab olema otsuste tegemisel või järelduste tegemisel üksiku paberi kasutamisel ettevaatlik.

Kallutatuse käsitlemine Analyticsis

See on mõeldud lihtsalt hoiatavaks jutuks. Teadmised võivad meid kaitsta pettuste eest. Mida teadlikumad on võimalikud meetodid, mida skanner võib meie petmiseks kasutada, seda vähem on tõenäoline, et meid haarab näiteks taskuvarga eksitus või sujuv jutt Ponzi näidendist. Nii on ka meie analüütikat mõjutavate võimalike eelarvamuste mõistmise ja äratundmisega. Kui oleme võimalikest mõjutustest teadlikud, suudame ehk lugu paremini esitleda ja lõpuks teha paremaid otsuseid.