Analitička laž

by Avgust 31, 2022BI/Analitika0 komentari

Analitička laž

Pristrasnost analize

 

Mark Twain je diskutabilno rekao nešto poput: „Postoje tri vrste laži: laži, proklete laži i analitika. " 

Smatramo zdravo za gotovo da nam analitika daje korisne, djelotvorne uvide. Ono što često ne shvaćamo je kako naše vlastite predrasude i predrasude drugih utiču na odgovore koje nam daju čak i najsofisticiraniji softver i sistemi. Ponekad se nama može nepošteno manipulirati, ali češće se u našu analitiku uvlače suptilne i nesvjesne predrasude. Motivacija iza pristrasne analitike je mnogostruka. Ponekad na nepristrasne rezultate koje očekujemo od nauke utiču 1) suptilni izbori u načinu predstavljanja podataka, 2) nedosledni ili nereprezentativni podaci, 3) način na koji su AI sistemi obučeni, 4) neznanje, nekompetentnost istraživača ili drugih koji pokušavaju ispričati priču, 5) sama analiza.    

Prezentacija je pristrasna

Neke od laži je lakše uočiti od drugih. Kada znate šta da tražite, lakše ćete otkriti potencijal pogrešni grafikoni i grafikoni. 

Ima ih barem pet načina za lažno prikazivanje podataka: 1) Prikaži ograničeni skup podataka, 2). Prikaži nepovezane korelacije, 3) Prikaži podatke netačno, 4) Prikaži podatke nekonvencionalno, ili 5). Prikaži previše pojednostavljene podatke.

Prikaži ograničeni skup podataka

Ograničavanje podataka ili ručni odabir neslučajnog dijela podataka često može ispričati priču koja nije u skladu s velikom slikom. Loše uzorkovanje, ili branje trešanja, je kada analitičar koristi nereprezentativni uzorak da predstavi veću grupu. 

U martu 2020, Odeljenje za javno zdravlje Gruzije objavio ovaj grafikon kao dio svog dnevnog izvještaja o stanju. To zapravo postavlja više pitanja nego što daje odgovore.  

Jedna od stvari koja nedostaje je kontekst. Na primjer, bilo bi korisno znati koliki je postotak stanovništva za svaku starosnu grupu. Još jedan problem sa tortnim grafikonom koji izgleda jednostavno su neujednačene starosne grupe. 0-17 ima 18 godina, 18-59 ima 42, 60+ je otvorenog tipa, ali ima oko 40 godina. Zaključak, s obzirom na samo ovaj grafikon, je da je većina slučajeva u starosnoj grupi od 18-59 godina. Starosna grupa od 60+ godina izgleda da je manje pogođena slučajevima COVID-a. Ali ovo nije cijela priča.

Za poređenje, ovaj različiti skup podataka o Web stranica CDC-a prikazuje slučajeve COVID-a po starosnoj grupi s dodatnim podacima o postotku stanovništva SAD-a koji se nalazi u svakom dobnom rasponu.  

Ovo je bolje. Imamo više konteksta. Vidimo da sve starosne grupe 18-29, 30-39, 40-49 imaju veći procenat slučajeva od procenta starosne grupe u populaciji. Još uvijek postoje neke neujednačene starosne grupe. Zašto je 16-17 godina posebna starosna grupa? Ipak, ovo nije cijela priča, ali stručnjaci su pisali kolumne, predviđali i nalagali manje od ovoga. Očigledno, kod COVID-a postoje mnoge varijable osim dobi koje utiču na to da se računa kao pozitivan slučaj: status vakcinacije, dostupnost testova, broj testiranja, komorbiditeti i mnoge druge. Broj slučajeva sam po sebi daje nepotpunu sliku. Većina stručnjaka također gleda na broj smrtnih slučajeva, ili postotak smrtnih slučajeva na 100,000 stanovnika, ili smrtne slučajeve kako bi pogledali kako COVID utječe na svaku starosnu grupu.

Pokažite nepovezane korelacije

Očigledno, postoji jaka korelacija između američke potrošnje na nauku, svemir i tehnologiju i broja samoubistava vješanjem, davljenjem i gušenjem. Korelacija je 99.79%, skoro savršeno podudaranje.  

Ko bi, međutim, tvrdio da su to na neki način povezani, ili da jedno uzrokuje drugo? Ima i drugih manje ekstremnih primjera, ali ništa manje lažnih. Postoji slična jaka korelacija između slova u Winning Word of Scripps National Spelling Bee i broja ljudi koje su ubili otrovni pauci. Slučajnost? Ti odluci.

Drugi način za crtanje ovih podataka koji bi mogao biti manje pogrešan bio bi uključiti nulu na obje Y-ose.

Prikaži podatke netačno

od Kako loše prikazati podatke, američka država Džordžija predstavila je top 5 okruga s najvećim brojem potvrđenih slučajeva COVID-19.

Izgleda legitimno, zar ne? Jasno je da postoji trend pada potvrđenih slučajeva COVID-19. Možete li pročitati X-osu? X-osa predstavlja vrijeme. Obično se datumi povećavaju s lijeva na desno. Ovdje vidimo malo putovanje kroz vrijeme na X-osi: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

Čekaj? Šta? X-osa nije sortirana hronološki. Dakle, koliko god trend izgledao lijepo, ne možemo izvlačiti nikakve zaključke. Ako su datumi poređani, trake za broj slučajeva pokazuju više pilasti uzorak nego bilo koji trend.

Ovdje je jednostavno rješenje da sortirate datume na način na koji to radi kalendar.

Prikaži podatke nekonvencionalno

Svi smo zauzeti. Naš mozak nas je naučio da donosimo brze presude na osnovu pretpostavki koje su postojale u našem svijetu. Na primjer, svaki grafikon koji sam ikada vidio prikazuje x- i y- ose koje se sastaju na nuli ili najnižim vrijednostima. Gledajući ukratko ovaj grafikon, koje zaključke možete izvući o učinku Floride “Zadrži svoj osnovni zakon.”? Sramota me je priznati, ali ovaj grafikon me je u početku prevario. Vaše oko je prikladno privučeno tekstom i strelicom u sredini grafike. Dolje je gore na ovom grafikonu. Možda nije laž – podaci su tu. Ali, moram misliti da je to namijenjeno prevari. Ako ga još niste vidjeli, nula na y osi je na vrhu. Dakle, kako podaci opadaju, to znači više smrtnih slučajeva. Ovaj grafikon pokazuje da je broj ubistava upotrebom vatrenog oružja povećan nakon 2005. godine, na šta ukazuje trend koji se nastavlja dole.

Prikažite podatke previše pojednostavljeno

Jedan primjer pretjeranog pojednostavljivanja podataka može se vidjeti kada analitičari iskoriste Simpsonov paradoks. Ovo je fenomen koji se javlja kada se čini da agregirani podaci pokazuju drugačiji zaključak nego kada su razdvojeni na podskupove. U ovu zamku je lako upasti kada se gledaju agregirani procenti na visokom nivou. Jedna od najjasnijih ilustracija Simpsonovog paradoksa na djelu odnosi se na batting prosjeci.  

Ovdje vidimo da Derek Jeter ima veći ukupni prosjek udaranja od Davida Justicea za sezone 1995. i 1996. godine. Paradoks dolazi kada shvatimo da je Justice nadmašio Jetera u prosjeku udaranja obje te godine. Ako pažljivo pogledate, ima smisla kada shvatite da je Jeter imao otprilike 4 puta više at-slepih miševa (imenilac) 1996. sa 007 nižeg prosjeka u 1996. Dok je Justice imao otprilike 10 puta veći broj at-slepih miševa na samo . 003 veći prosjek u 1995.

Prezentacija se čini jednostavnom, ali Simpsonov paradoks, svjesno ili nesvjesno, doveo je do pogrešnih zaključaka. Nedavno su se u vijestima i na društvenim mrežama pojavili primjeri Simpsonovog paradoksa u vezi s vakcinama i smrtnošću od COVID-a. Jedan grafikon prikazuje linijski grafikon koji upoređuje stope smrtnosti između vakcinisanih i nevakcinisanih za osobe starosti 10-59 godina. Grafikon pokazuje da necijepljeni stalno imaju nižu stopu smrtnosti. sta se desava ovde?  

Problem je sličan onom koji vidimo kod prosjeka udaranja. Imenitelj u ovom slučaju je broj pojedinaca u svakoj starosnoj grupi. Grafikon kombinuje grupe koje imaju različite ishode. Ako posmatramo posebno stariju starosnu grupu, 50-59 godina, vidimo da vakcinisani bolje prolaze. Isto tako, ako pogledamo 10-49, vidimo i da vakcinisani prolaze bolje. Paradoksalno, kada se pogleda kombinovani set, čini se da nevakcinisani imaju lošiji ishod. Na ovaj način, pomoću podataka možete argumentirati suprotne argumente.

Podaci su pristrasni

Podacima se ne može uvijek vjerovati. Čak iu naučnoj zajednici, više od trećine ispitanih istraživača je to priznalo “sumnjive istraživačke prakse.”  još jedan detektiv za istraživanje prevara kaže: „Vrlo je vjerovatno mnogo više prevare u podacima – tabelama, linijskim grafikonima, podacima o sekvenciranju [– nego što zapravo otkrivamo]. Svako ko sjedi za svojim kuhinjskim stolom može staviti neke brojeve u tabelu i napraviti linijski grafikon koji izgleda uvjerljivo.”

Ovo prvo primjer izgleda da je neko upravo to uradio. Ne kažem da je ovo prevara, ali kao anketa, jednostavno ne generiše nikakve podatke koji doprinose donošenju odluke na osnovu informacija. Izgleda da je anketa pitala ispitanike o njihovom mišljenju o kafi na benzinskoj pumpi ili nekom drugom relevantnom aktuelnom događaju. 

  1. Sjajno 
  2. velik
  3. Veoma dobro 

Izrezao sam objavu na Twitteru kako bih uklonio reference na krivce, ali ovo je stvarni cijeli grafikon konačnih rezultata ankete. Ovakva istraživanja nisu neuobičajena. Očigledno je da će svaki grafikon kreiran na osnovu podataka dobijenih iz odgovora pokazati da se kafa ne smije propustiti.  

Problem je u tome što biste preskočili anketu da ste dobili ovu anketu i niste pronašli odgovor koji odgovara vašem razmišljanju. Ovo može biti ekstreman primjer kako se mogu stvoriti nepouzdani podaci. Loš dizajn ankete, međutim, može dovesti do manjeg broja odgovora, a oni koji odgovore imaju samo jedno mišljenje, samo je pitanje stepena. Podaci su pristrasni.

Ovaj drugi primjer pristranosti podataka je iz datoteka “Najgori obmanjujući grafikoni o COVID 19. " 

Opet, ovo je suptilno i nije potpuno očigledno. Stupasti grafikon pokazuje glatki – gotovo previše gladak – pad postotka pozitivnih slučajeva COVID-19 tijekom vremena za okrug na Floridi. Lako biste mogli zaključiti da broj slučajeva opada. To je sjajno, vizualizacija precizno predstavlja podatke. Problem je u podacima. Dakle, to je podmuklija pristrasnost jer je ne možete vidjeti. To je uklopljeno u podatke. Pitanja koja trebate postaviti, uključuju, ko se testira? Drugim riječima, koji je nazivnik, odnosno broj stanovnika čiji procenat gledamo. Pretpostavka je da se radi o cjelokupnoj populaciji, ili barem o reprezentativnom uzorku.

Međutim, u ovom periodu, u ovoj županiji, testovi su davani samo ograničenom broju ljudi. Morali su imati simptome slične COVID-u ili su nedavno putovali u zemlju na listi vrućih tačaka. Dodatno zbunjujuća je činjenica da se svaki pozitivan test računao i svaki negativan test. Obično, kada je pojedinac bio pozitivan, testirao bi se ponovo kada virus prođe i bio bi negativan. Dakle, na neki način, za svaki pozitivan slučaj postoji negativan test koji ga poništava. Ogromna većina testova je negativna i prebrojani su negativni testovi svakog pojedinca. Možete vidjeti kako su podaci pristrasni i nisu posebno korisni za donošenje odluka. 

AI unos i obuka su pristrasni

Postoje najmanje dva načina na koja AI može dovesti do pristranih rezultata: počevši od pristrasnih podataka ili korištenjem pristrasnih algoritama za obradu valjanih podataka.  

Pristrani ulaz

Mnogi od nas su pod dojmom da se AI može vjerovati da će smanjiti brojke, primijeniti svoje algoritme i ispljunuti pouzdanu analizu podataka. Umjetna inteligencija može biti pametna samo onoliko koliko je obučena. Ako su podaci na kojima se obučava nesavršeni, neće se moći vjerovati ni rezultatima ili zaključcima. Slično gore navedenom slučaju pristranosti istraživanja, postoji nekoliko načina na koje podaci mogu biti pristrasan u mašinskom učenju:.  

  • Pristrasnost uzorka – skup podataka o obuci nije reprezentativan za cijelu populaciju.
  • Pristrasnost isključenja – ponekad je ono što se čini da su odstupanja zapravo validno, ili, gdje povlačimo liniju šta treba uključiti (poštanske brojeve, datume, itd.).
  • Pristranost mjerenja – konvencija je da se uvijek mjeri od centra i dna meniskusa, na primjer, kada se mjeri tekućina u volumetrijskim tikvicom ili epruvetama (osim žive).
  • Pristrasnost prisjećanja – kada istraživanje ovisi o pamćenju sudionika.
  • Pristrasnost posmatrača – naučnici su, kao i svi ljudi, skloniji da vide ono što očekuju da vide.
  • Seksistička i rasistička pristrasnost – pol ili rasa mogu biti previše ili nedovoljno zastupljeni.  
  • Pristrasnost asocijacije – podaci jačaju stereotipe

Da bi AI dala pouzdane rezultate, njegovi podaci o obuci moraju predstavljati stvarni svijet. Kao što smo raspravljali u prethodnom članku na blogu, priprema podataka je kritična i kao i svaki drugi projekat podataka. Nepouzdani podaci mogu naučiti sisteme mašinskog učenja pogrešnoj lekciji i rezultiraće pogrešnim zaključkom. To je reklo: „Svi podaci su pristrasni. Ovo nije paranoja. Ovo je činjenica.” – Dr Sanjiv M. Narayan, Medicinski fakultet Univerziteta Stanford.

Korištenje pristrasnih podataka za obuku dovelo je do brojnih značajnih neuspjeha AI. (Primjeri OVDJE i OVDJE, istraživanje OVDJE..)

Pristrani algoritmi

Algoritam je skup pravila koja prihvataju ulaz i kreiraju izlaz da bi odgovorili na poslovni problem. Često su to dobro definirana stabla odlučivanja. Algoritmi se osjećaju kao crne kutije. Niko nije siguran kako rade, često, čak ni kompanije koje ih koriste. Oh, i često su vlasnički. Njihova misteriozna i složena priroda jedan je od razloga zašto su pristrasni algoritmi tako podmukli. . 

Uzmite u obzir AI algoritme u medicini, ljudskim resursima ili finansijama koji uzimaju u obzir rasu. Ako je rasa faktor, algoritam ne može biti rasno slijep. Ovo nije teoretski. Problemi poput ovih otkriveni su u stvarnom svijetu korištenjem AI u zapošljavanje, vožnju, zahtjev za kredite, i transplantacija bubrega

Suština je da ako su vaši podaci ili algoritmi loši, gori nego beskorisni, mogu biti opasni. Postoji nešto kao "algoritamska revizija.” Cilj je pomoći organizacijama da identifikuju potencijalne rizike koji se odnose na algoritam koji se odnosi na pravičnost, pristrasnost i diskriminaciju. drugdje, Facebook koristi AI za borbu protiv predrasuda u AI.

Ljudi su pristrasni

Imamo ljude na obe strane jednačine. Ljudi pripremaju analizu i ljudi primaju informacije. Postoje istraživači i postoje čitaoci. U svakoj komunikaciji može doći do problema u prijenosu ili prijemu.

Uzmimo vrijeme, na primjer. Šta znači "šansa za kišu"? Prvo, šta meteorolozi misle kada kažu da postoji šansa za kišu? Prema američkoj vladi Nacionalna meteorološka služba, mogućnost kiše, ili ono što oni zovu Vjerovatnoća padavina (PoP), jedan je od najmanje razumljivih elemenata u vremenskoj prognozi. Ima standardnu ​​definiciju: „Vjerovatnoća padavina je jednostavno statistička vjerovatnoća od 0.01″ inča [sic] od [sic] više padavina u datom području u datom području prognoze u određenom vremenskom periodu.“ “Dato područje” je područje prognoze, ili broadliveno područje. To znači da zvanična vjerovatnoća padavina ovisi o uvjerenju da će negdje u tom području padati kiša i postotku područja koje će se smočiti. Drugim riječima, ako je meteorolog uvjeren da će padati kiša u prognoziranom području (pouzdanost = 100%), tada PoP predstavlja dio područja koji će primati kišu.  

Paris Street; Kišni dan, Gustave Caillebotte (1848-1894) Chicago Art Institute Javna domena

Šansa za kišu ovisi i o povjerenju i o području. Nisam to znao. Pretpostavljam da ni drugi ljudi to ne znaju. Oko 75% populacije ne razumije tačno kako se izračunava PoP ili šta treba da predstavlja. Dakle, da li nas varaju, ili je ovo problem percepcije. Nazovimo to percepcijom padavina. Krivimo li vremensku prognozu? Da budemo pošteni, ima ih konfuzija i među prognostičarima. U jednom pregled43% anketiranih meteorologa je reklo da je vrlo malo konzistentnosti u definiciji PoP.

Sama analiza je pristrasna

Od pet faktora koji utiču, sama analiza može biti najviše iznenađujuća. U naučnim istraživanjima koja rezultiraju objavljivanjem recenziranog rada, obično se postavlja hipoteza o teoriji, definiraju se metode za testiranje hipoteze, prikupljaju se podaci, a zatim se podaci analiziraju. Vrsta analize koja se radi i način na koji se radi nedovoljno je cijenjena u smislu kako utiče na zaključke. U papir objavljeni ranije ove godine (januar 2022.), u International Journal of Cancer, autori su procijenili da li su rezultati randomiziranih kontroliranih studija i retrospektivnih opservacijskih studija. Njihovi nalazi su zaključili da,

Variranjem analitičkih izbora u komparativnom istraživanju efikasnosti, dobili smo suprotne rezultate. Naši rezultati sugeriraju da neke retrospektivne opservacijske studije mogu otkriti da liječenje poboljšava ishode za pacijente, dok druga slična studija može otkriti da ne, jednostavno na temelju analitičkih izbora.

U prošlosti, kada ste čitali članak u naučnom časopisu, ako ste poput mene, možda ste mislili da su rezultati ili zaključci isključivo podaci. Sada se čini da rezultati, odnosno da li je početna hipoteza potvrđena ili opovrgnuta, također mogu ovisiti o metodi analize.

još jedan studija pronašao slične rezultate. Clanak, Mnogi analitičari, jedan skup podataka: Transparentnost kako varijacije u analitičkim izborima utiču na rezultate, opisuje kako su dali isti skup podataka 29 različitih timova na analizu. Analiza podataka se često posmatra kao strog, dobro definisan proces koji vodi do jednog zaključka.  

Uprkos prigovorima metodologa, lako je previdjeti činjenicu da rezultati mogu ovisiti o odabranoj analitičkoj strategiji, koja je i sama prožeta teorijom, pretpostavkama i tačkama izbora. U mnogim slučajevima postoje mnogi razumni (i mnogi nerazumni) pristupi evaluaciji podataka koji se odnose na istraživačko pitanje.

Istraživači su prikupili analizu podataka i došli do zaključka da sva istraživanja uključuju subjektivne odluke – uključujući i koju vrstu analize koristiti – koje mogu utjecati na konačni ishod studije.

Preporuka drugog istraživač koji je analizirao gornju studiju treba biti oprezan kada se koristi samo jedan rad u donošenju odluka ili donošenju zaključaka.

Rješavanje pristranosti u analitici

Ovo je jednostavno zamišljeno da bude priča upozorenja. Znanje nas može zaštititi od prevara. Što smo svjesniji mogućih metoda koje bi skener mogao upotrijebiti da nas prevari, manja je vjerovatnoća da ćemo biti uhvaćeni, recimo, džeparčevim lažnim usmjeravanjem ili glatkim govorom o Ponzijevom komadu. Tako je i s razumijevanjem i prepoznavanjem potencijalnih predrasuda koje utječu na našu analitiku. Ako smo svjesni potencijalnih utjecaja, mogli bismo bolje predstaviti priču i na kraju donijeti bolje odluke.