Analytiikka valhe

by Elokuu 31, 2022BI/Analytics0 kommentit

Analytiikka valhe

Analyysin harha

 

Mark Twain sanoi kiistanalaisesti jotain tällaista: "On olemassa kolmenlaisia ​​valheita: valheita, kirottuja valheita ja Analytics

Pidämme itsestäänselvyytenä, että analytiikka antaa meille hyödyllisiä ja käyttökelpoisia oivalluksia. Emme usein ymmärrä, kuinka omat ja muiden ennakkoluulot vaikuttavat vastauksiin, joita saamme jopa kaikkein kehittyneimmiltä ohjelmistoilta ja järjestelmiltä. Joskus meitä voidaan manipuloida epärehellisesti, mutta yleisemmin se voi olla hienovaraista ja tiedostamatonta harhaa, joka hiipii analytiikkaamme. Motivaatio puolueellisen analytiikan takana on moninainen. Joskus tieteeltä odottamiimme puolueettomiin tuloksiin vaikuttavat 1) hienovaraiset valinnat tietojen esittämisessä, 2) epäjohdonmukaiset tai epäedustavat tiedot, 3) tekoälyjärjestelmien koulutus, 4) tutkijoiden tai muiden yrittäjien tietämättömyys, epäpätevyys. kertoa tarina, 5) itse analyysi.    

Esitys on puolueellinen

Jotkut valheista on helpompi havaita kuin toiset. Kun tiedät mitä etsiä, voit helpommin havaita mahdolliset harhaanjohtavia kaavioita ja kaavioita. 

On ainakin viisi tapaa näyttää tietoja harhaanjohtavasti: 1) Näytä rajoitettu tietojoukko, 2). Näytä toisiinsa liittymättömät korrelaatiot, 3) Näytä tiedot epätarkasti, 4) Näytä tiedot epätavallisesti tai 5). Näytä tiedot liian yksinkertaistettuna.

Näytä rajoitettu tietojoukko

Tietojen rajoittaminen tai ei-satunnaisen osan valitseminen käsin voi usein kertoa tarinan, joka ei ole yhdenmukainen kokonaiskuvan kanssa. Huono näytteenotto eli kirsikkapoiminta on, kun analyytikko käyttää ei-edustavaa näytettä edustaakseen suurempaa ryhmää. 

Maaliskuussa 2020, Georgian kansanterveyden laitos julkaisi tämän kaavion osana päivittäistä tilaraporttiaan. Itse asiassa se herättää enemmän kysymyksiä kuin antaa vastauksia.  

Yksi puuttuvista asioista on konteksti. Olisi esimerkiksi hyödyllistä tietää, mikä on kunkin ikäryhmän prosenttiosuus väestöstä. Toinen ongelma yksinkertaiselta näyttävässä ympyräkaaviossa on epätasaiset ikäryhmät. 0-17 on 18 vuotta, 18-59 on 42, 60+ on avoin, mutta on noin 40 vuotta. Johtopäätös pelkän tämän kaavion perusteella on, että suurin osa tapauksista on 18-59-vuotiaiden ikäryhmässä. COVID-tapaukset vaikuttavat vähemmän vakavasti yli 60-vuotiaiden ikäryhmään. Mutta tämä ei ole koko tarina.

Vertailun vuoksi tämä eri tietojoukko CDC:n verkkosivusto kartoittaa COVID-tapaukset ikäryhmittäin lisätiedoilla Yhdysvaltain väestön prosenttiosuudesta kussakin ikäryhmässä.  

Tämä on parempi. Meillä on enemmän kontekstia. Näemme, että ikäryhmissä 18-29, 30-39, 40-49 kaikissa on suurempi tapausprosentti kuin ikäryhmän prosenttiosuus väestöstä. Ikäryhmiä on edelleen epätasaisia. Miksi 16-17 on erillinen ikäryhmä? Tämä ei kuitenkaan ole koko tarina, mutta asiantuntijat ovat kirjoittaneet kolumneja, tehneet ennusteita ja toimeksiantoja vähemmälläkin. On selvää, että COVIDissa on iän lisäksi monia muuttujia, jotka vaikuttavat siihen, että lasketaan positiiviseksi tapaukseksi: rokotustila, testien saatavuus, testauskerrat, rinnakkaissairaudet ja monet muut. Tapausten määrä itsessään antaa epätäydellisen kuvan. Useimmat asiantuntijat tarkastelevat myös kuolemien määrää tai kuolleiden prosenttiosuuksia 100,000 XNUMX asukasta kohti tai tapauskuolemia nähdäkseen, kuinka COVID vaikuttaa kuhunkin ikäryhmään.

Näytä toisiinsa liittymättömät korrelaatiot

Ilmeisesti on olemassa a vahva korrelaatio Yhdysvaltojen tieteeseen, avaruuteen ja teknologiaan käyttämien menojen ja hirttämällä, kuristumalla ja tukehtumalla tapahtuneiden itsemurhien määrän välillä. Korrelaatio on 99.79%, melkein täydellinen vastaavuus.  

Kuka kuitenkin väittäisi, että nämä liittyvät jotenkin toisiinsa tai että toinen aiheuttaa toisen? On muitakin vähemmän äärimmäisiä esimerkkejä, mutta eivät vähemmän vääriä. On samanlainen vahva korrelaatio Scripps National Spelling Bee:n voittosanan kirjainten ja myrkyllisten hämähäkkien tappamien ihmisten lukumäärän välillä. Yhteensattuma? Sinä päätät.

Toinen tapa kaavioida nämä tiedot, jotka voivat olla vähemmän harhaanjohtavia, on sisällyttää nolla molemmille Y-akseleille.

Näytä tiedot virheellisesti

alkaen Kuinka näyttää tietoja huonostiYhdysvaltain Georgian osavaltio esitteli 5 parasta maakuntaa, joissa on eniten vahvistettuja COVID-19-tapauksia.

Näyttää lailliselta, eikö? Vahvistettujen COVID-19-tapausten määrä on selvästi laskeva. Osaatko lukea X-akselia? X-akseli edustaa aikaa. Tyypillisesti päivämäärät kasvavat vasemmalta oikealle. Tässä näemme pienen aikamatkan X-akselilla: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

Odota? Mitä? X-akselia ei ole järjestetty kronologisesti. Joten vaikka trendi näyttääkin hyvältä, emme voi vetää johtopäätöksiä. Jos päivämäärät ovat tilattuja, tapausten lukumäärän palkit osoittavat enemmän sahanhammaskuviota kuin minkäänlaista trendiä.

Helppo korjata tässä on lajitella päivämäärät kalenterin tapaan.

Näytä tiedot epätavallisesti

Meillä kaikilla on kiire. Aivomme ovat opettaneet meidät tekemään nopeita päätöksiä oletuksiin, jotka ovat olleet johdonmukaisia ​​maailmassamme. Esimerkiksi jokainen kaavio, jonka olen koskaan nähnyt, näyttää x- ja y-akselit kohtaamassa nollassa tai pienimmässä arvossa. Katsomalla tätä kaaviota lyhyesti, mitä johtopäätöksiä voit tehdä Floridan vaikutuksesta "Pidä peruslakiasi.”? Häpeän myöntää se, mutta tämä kaavio hämäsi minua aluksi. Silmäsi kiinnittyy kätevästi tekstiin ja nuoleen grafiikan keskellä. Alas on ylöspäin tässä kaaviossa. Se ei ehkä ole valhe – tiedot ovat kunnossa. Mutta minun täytyy ajatella, että sen tarkoitus on pettää. Jos et ole vielä nähnyt sitä, y-akselin nolla on ylhäällä. Joten kun tiedot laskevat, se tarkoittaa enemmän kuolemia. Tämä kaavio osoittaa ampuma-aseella tehtyjen murhien määrän kasvoi vuoden 2005 jälkeen, mikä osoittaa menevän suuntauksen alas.

Näytä tiedot liian yksinkertaistettuna

Yksi esimerkki tietojen liiallisesta yksinkertaistamisesta voidaan nähdä, kun analyytikot käyttävät hyväkseen Simpsonin paradoksia. Tämä on ilmiö, joka ilmenee, kun aggregoidut tiedot näyttävät osoittavan erilaisen päätelmän kuin silloin, kun se jaetaan osajoukkoon. Tähän ansaan on helppo pudota, kun tarkastellaan korkean tason aggregoituja prosenttiosuuksia. Yksi selkeimmistä kuvista Simpsonin paradoksista työssä liittyy lyöntikeskiarvot.  

Tässä näemme, että Derek Jeterillä on korkeampi yleinen lyöntikeskiarvo kuin David Justicella kausilla 1995 ja 1996. Paradoksi tulee esiin, kun ymmärrämme, että Justice voitti Jeterin lyöntikeskiarvossa molempina vuosina. Jos katsot tarkkaan, se on järkevää, kun huomaat, että Jeterillä oli noin 4 kertaa enemmän lyöntejä (nimittäjä) vuonna 1996, 007 alhaisemmalla keskiarvolla vuonna 1996. Sitä vastoin Justicella oli noin 10 kertaa enemmän lyöntejä vain . 003 korkeampi keskiarvo vuonna 1995.

Esitys näyttää suoraviivaiselta, mutta Simpsonin paradoksi on tietoisesti tai tietämättään johtanut vääriin johtopäätöksiin. Viime aikoina uutisissa ja sosiaalisessa mediassa on ollut esimerkkejä rokotteisiin ja COVID-kuolleisuuteen liittyen Simpsonin paradokseista. Yksi kartoittaa näyttää viivakaavion, jossa verrataan 10–59-vuotiaiden kuolleisuutta rokotettujen ja rokottamattomien välillä. Kaavio osoittaa, että rokottamattomilla on jatkuvasti pienempi kuolleisuus. Mitä täällä tapahtuu?  

Ongelma on samanlainen kuin se, jonka näemme lyövän keskiarvon kohdalla. Nimittäjä tässä tapauksessa on yksilöiden lukumäärä kussakin ikäryhmässä. Kaavio yhdistää ryhmät, joilla on erilaiset tulokset. Jos katsomme vanhempaa ikäryhmää, 50-59, erikseen, huomaamme, että rokotetut pärjäävät paremmin. Samoin, jos katsomme 10-49, näemme myös, että rokotetut pärjäävät paremmin. Paradoksaalista kyllä, kun tarkastellaan yhdistettyä sarjaa, rokottamattomien tulos näyttää olevan huonompi. Tällä tavalla voit perustella päinvastaisia ​​argumentteja käyttämällä tietoja.

Tiedot ovat puolueellisia

Tietoihin ei aina voi luottaa. Jopa tiedeyhteisössä yli kolmannes tutkijoista myönsi " kyseenalaisia ​​tutkimuskäytäntöjä."  Toinen tutkimuspetosetsivä sanoo: "Tietoissa - taulukoissa, viivakaavioissa, sekvensointitiedoissa - on hyvin todennäköisesti paljon enemmän petoksia [- kuin mitä me todellisuudessa löydämme]. Jokainen keittiön pöydän ääressä istuva voi laittaa numeroita laskentataulukkoon ja tehdä viivakaavion, joka näyttää vakuuttavalta.

Tämä ensimmäinen esimerkki näyttää siltä, ​​että joku teki juuri niin. En sano, että tämä on petos, mutta kyselynä se ei vain tuota tietoja, jotka edistäisivät tietoon perustuvaa päätöstä. Vaikuttaa siltä, ​​että kyselyssä kysyttiin vastaajilta heidän mielipiteitään huoltoasemakahvista tai jostain muusta asiaankuuluvasta ajankohtaisesta tapahtumasta. 

  1. Loistava 
  2. Suuri
  3. Oikein hyvä 

Olen rajannut Twitter-viestin poistaakseni viittaukset syylliseen, mutta tämä on koko taulukko tutkimuksen lopputuloksista. Tällaiset kyselyt eivät ole harvinaisia. Ilmeisesti mikä tahansa kaavio, joka on luotu vastauksista saaduista tiedoista, osoittaa, että kyseistä kahvia ei kannata jättää väliin.  

Ongelmana on, että jos sinulle olisi annettu tämä kysely, etkä löytänyt vastausta, joka sopisi ajatuksiisi, ohittaisit kyselyn. Tämä voi olla äärimmäinen esimerkki siitä, kuinka epäluotettavaa dataa voidaan luoda. Huono kyselysuunnittelu voi kuitenkin johtaa siihen, että vastauksia tulee vähemmän, ja niillä, jotka vastaavat, on vain yksi mielipide, se on vain astekysymys. Tiedot ovat puolueellisia.

Tämä toinen esimerkki tietopoikkeamisesta on tiedostoista "Huonoimmat COVID 19 -harhaanjohtavat kaaviot

Jälleen tämä on hienovaraista eikä täysin ilmeistä. Pylväsdiagrammi näyttää tasaisen – melkein liian tasaisen – positiivisten COVID-19-tapausten prosenttiosuuden laskun ajan myötä Floridan piirikunnassa. Voit helposti vetää johtopäätöksen, että tapaukset ovat vähenemässä. Hienoa, visualisointi edustaa tiedot tarkasti. Ongelma on tiedoissa. Joten se on kavalampi harha, koska et näe sitä. Se on upotettu tietoihin. Kysymyksiin, jotka sinun on esitettävä, ovat muun muassa, ketä testataan? Toisin sanoen, mikä on nimittäjä tai jonka populaatiota tarkastelemme prosentteina. Oletuksena on, että kyseessä on koko populaatio tai ainakin edustava otos.

Tänä aikana tässä läänissä testejä annettiin kuitenkin vain rajoitetulle määrälle ihmisiä. Heillä piti olla COVIDin kaltaisia ​​oireita tai he olivat matkustaneet äskettäin hot spot -luettelossa olevaan maahan. Lisäksi tuloksia hämmentää se, että jokainen positiivinen testi laskettiin ja jokainen negatiivinen testi laskettiin. Tyypillisesti, kun yksilön testi oli positiivinen, he tekivät testin uudelleen, kun virus oli kulkenut, ja tulos oli negatiivinen. Joten tietyssä mielessä jokaiselle positiiviselle tapaukselle on negatiivinen testitapaus, joka kumoaa sen. Suurin osa testeistä on negatiivisia ja jokaisen yksilön negatiiviset testit laskettiin. Voit nähdä, kuinka tiedot ovat puolueellisia ja eivät erityisen hyödyllisiä päätösten tekemisessä. 

Tekoälyn syöttö ja koulutus on puolueellinen

On olemassa ainakin kaksi tapaa, joilla tekoäly voi johtaa puolueellisiin tuloksiin: aloittamalla puolueellisella tiedolla tai käyttämällä puolueellisia algoritmeja kelvollisen datan käsittelemiseen.  

Biased Input

Monet meistä ajattelevat, että tekoäly voidaan luottaa murskaamaan numerot, soveltamaan algoritmejaan ja sylkemään luotettavan analyysin tiedoista. Tekoäly voi olla vain niin älykäs kuin se on koulutettu. Jos tiedot, joihin se on koulutettu, ovat epätäydellisiä, tuloksiin tai johtopäätöksiin ei myöskään voida luottaa. Kuten yllä olevassa kyselyn harhaan liittyvässä tapauksessa, dataa voidaan käyttää useilla tavoilla puolueellinen koneoppimisessa:.  

  • Otosharha – harjoitustietojoukko ei edusta koko populaatiota.
  • Poissulkemisharha – toisinaan poikkeavilta näyttävät asiat ovat todella päteviä, tai mihin vedämme rajan sisällytettävälle (postinumerot, päivämäärät jne.).
  • Mittauspoikkeama – käytäntönä on mitata aina meniskin keskeltä ja pohjalta, esimerkiksi mitattaessa nesteitä mittapulloissa tai koeputkissa (paitsi elohopeaa).
  • Muistutusharha – kun tutkimus riippuu osallistujien muistista.
  • Tarkkailijaharha – tiedemiehet, kuten kaikki ihmiset, ovat taipuvaisempia näkemään, mitä he odottavat näkevänsä.
  • Seksistinen ja rasistinen ennakkoluulo – sukupuoli tai rotu voi olla yli- tai aliedustettuna.  
  • Assosiaatioharha – tiedot vahvistavat stereotypioita

Jotta tekoäly tuottaa luotettavia tuloksia, sen harjoitustietojen on edustettava todellista maailmaa. Kuten olemme keskustelleet aiemmassa blogiartikkelissa, tietojen valmistelu on kriittistä ja kuten mikä tahansa muu dataprojekti. Epäluotettava data voi opettaa koneoppimisjärjestelmille väärän oppitunnin ja johtaa vääriin johtopäätöksiin. Se sanoi: "Kaikki tiedot ovat puolueellisia. Tämä ei ole vainoharhaisuutta. Tämä on tosiasia." – Tri Sanjiv M. Narayan, Stanfordin yliopiston lääketieteellinen korkeakoulu.

Harjoitetun tiedon käyttäminen harjoittelussa on johtanut useisiin merkittäviin tekoälyvirheisiin. (Esimerkkejä tätä ja tätä, tutkimus tätä..)

Puolueet algoritmit

Algoritmi on joukko sääntöjä, jotka hyväksyvät syötteen ja luovat tulosteen vastaamaan liiketoimintaongelmaan. Ne ovat usein hyvin määriteltyjä päätöspuita. Algoritmit tuntuvat mustilta laatikoilta. Kukaan ei ole varma, kuinka ne toimivat, ei useinkaan niitä käyttävät yritykset. Ja ne ovat usein omaisuutta. Niiden salaperäinen ja monimutkainen luonne on yksi syy siihen, miksi puolueelliset algoritmit ovat niin salakavalaisia. . 

Harkitse tekoälyalgoritmeja lääketieteen, HR:n tai rahoituksen alalla, jotka huomioivat rodun. Jos rotu on tekijä, algoritmi ei voi olla rodullisesti sokea. Tämä ei ole teoreettista. Tällaisia ​​ongelmia on löydetty todellisesta maailmasta tekoälyn avulla vuokraamalla, kyytiosake, lainahakemuss, ja munuaisensiirrot

Tärkeintä on, että jos tietosi tai algoritmisi ovat huonoja, huonompia kuin hyödyttömiä, ne voivat olla vaarallisia. On olemassa sellainen asia kuin "algoritminen auditointi.” Tavoitteena on auttaa organisaatioita tunnistamaan algoritmiin liittyvät mahdolliset riskit, jotka liittyvät oikeudenmukaisuuteen, puolueellisuuteen ja syrjintään. Muualla, Facebook käyttää tekoälyä torjuakseen tekoälyn harhaa.

Ihmiset ovat puolueellisia

Meillä on ihmisiä yhtälön molemmilla puolilla. Ihmiset valmistelevat analyysiä ja ihmiset vastaanottavat tietoa. On tutkijoita ja on lukijoita. Missä tahansa viestinnässä voi esiintyä ongelmia lähetyksessä tai vastaanotossa.

Otetaan esimerkiksi sää. Mitä "sateen mahdollisuus" tarkoittaa? Ensinnäkin, mitä meteorologit tarkoittavat sanoessaan, että sateen mahdollisuus on olemassa? Yhdysvaltain hallituksen mukaan National Weather Service, sateen mahdollisuus tai se, mitä he kutsuvat Probability of Precipitation (PoP), on yksi vähiten ymmärrettyjä elementtejä sääennusteessa. Sillä on vakiomääritelmä: "Sateen todennäköisyys on yksinkertaisesti tilastollinen todennäköisyys 0.01 tuumaa [sic] enemmän sademäärästä tietyllä alueella tietyllä ennustealueella määritetyn ajanjakson aikana." "Tietytty alue" on ennustealue tai broadheittoalue. Tämä tarkoittaa, että virallinen sateen todennäköisyys riippuu luottamuksesta, että jossain alueella sataa ja kuinka paljon aluetta kastuu. Toisin sanoen, jos meteorologi on varma, että ennustealueella sataa (luottamus = 100 %), niin PoP edustaa alueen osaa, jolle sataa.  

Pariisin katu; Sateinen päivä,Gustave Caillebotte (1848-1894) Chicago Art Institute Public Domain

Sateen mahdollisuus riippuu sekä luottamuksesta että alueesta. En tiennyt sitä. Epäilen, että muutkaan eivät tiedä sitä. Noin 75 % väestöstä ei ymmärrä tarkasti, miten PoP lasketaan tai mitä sen on tarkoitus edustaa. Joten, huijataanko meitä vai onko tämä havaintoongelma. Kutsutaan sitä sateen havainnoksi. Syytämmekö sääennustajaa? Ollakseni rehellinen, niitä on sekaannus myös sääennustajien keskuudessa. Yhdessä tutkimus43 % kyselyyn vastanneista meteorologeista sanoi, että PoP:n määritelmä on hyvin vähän johdonmukainen.

Itse analyysi on puolueellinen

Viidestä vaikuttavasta tekijästä itse analyysi saattaa olla yllättävin. Tieteellisessä tutkimuksessa, jonka tuloksena julkaistaan ​​arvioitu artikkeli, tyypillisesti hypoteesoidaan teoria, määritellään menetelmät hypoteesin testaamiseksi, kerätään dataa ja sitten analysoidaan. Tehtävän analyysin tyyppiä ja tapaa aliarvioida sen vaikutuksesta päätelmiin. Jonkin sisällä paperi Julkaistu aiemmin tänä vuonna (tammikuussa 2022) International Journal of Cancer -lehdessä, kirjoittajat arvioivat satunnaistettujen kontrolloitujen kokeiden ja retrospektiivisten havainnointitutkimusten tuloksia. Heidän havaintonsa päättelivät, että

Vaihtelemalla analyyttisiä valintoja vertailevassa tehokkuustutkimuksessa saimme aikaan päinvastaisia ​​tuloksia. Tuloksemme viittaavat siihen, että jotkin retrospektiiviset havainnointitutkimukset saattavat havaita, että hoito parantaa potilaiden tuloksia, kun taas toisessa samankaltaisessa tutkimuksessa se ei ehkä tee sitä yksinkertaisesti analyyttisten valintojen perusteella.

Aiemmin, kun lukit tieteellistä lehtiartikkelia, jos olet kuten minä, olet ehkä ajatellut, että tulokset tai johtopäätökset liittyvät vain dataan. Nyt näyttää siltä, ​​että tulokset tai se, vahvistetaanko vai kumotaanko alkuperäinen hypoteesi, voi myös riippua analyysimenetelmästä.

Toinen opiskella löysi samanlaisia ​​tuloksia. Artikkeli, Monet analyytikot, yksi tietojoukko: läpinäkyväksi, miten analyyttisten valintojen vaihtelut vaikuttavat tuloksiin, kuvailee, kuinka he antoivat saman datajoukon 29 eri tiimille analysoitavaksi. Tietojen analysointi nähdään usein tiukana, hyvin määriteltynä prosessina, joka johtaa yhteen johtopäätökseen.  

Metodologien huomautuksista huolimatta on helppo jättää huomiotta se tosiasia, että tulokset voivat riippua valitusta analyyttisestä strategiasta, joka itsessään on täynnä teoriaa, olettamuksia ja valintapisteitä. Monissa tapauksissa on olemassa monia järkeviä (ja monia kohtuuttomia) lähestymistapoja tutkimuskysymykseen liittyvien tietojen arvioimiseen.

Tutkijat keräsivät tiedon analyysin joukkolähteistä ja tulivat siihen tulokseen, että kaikkiin tutkimuksiin sisältyy subjektiivisia päätöksiä - mukaan lukien käytettävä analyysi -, jotka voivat vaikuttaa tutkimuksen lopulliseen tulokseen.

Toisen suositus tutkija Yllä olevaa tutkimusta analysoineen on oltava varovainen käyttäessään yhtä paperia päätöksenteossa tai johtopäätösten tekemisessä.

Biasin käsitteleminen Analyticsissa

Tämä on yksinkertaisesti tarkoitettu varoittavaksi tarinaksi. Tieto voi suojella meitä huijauksilta. Mitä tietoisempia mahdollisista menetelmistä, joita skanneri saattaa käyttää huijatakseen meitä, sitä vähemmän todennäköisesti joudumme esimerkiksi taskuvarkaan harhaanjohtamiseen tai Ponzin näytelmän sujuvaan puheeseen. Näin on myös mahdollisten harhojen ymmärtämisessä ja tunnistamisessa, jotka vaikuttavat analytiikkaamme. Jos olemme tietoisia mahdollisista vaikutuksista, voimme ehkä esittää tarinan paremmin ja lopulta tehdä parempia päätöksiä.