Analitička laž

by Kolovoz 31, 2022BI/Analitika0 komentari

Analitička laž

Pristranost analize

 

Mark Twain je sporno rekao nešto poput: "Postoje tri vrste laži: laži, proklete laži i analitika". 

Uzimamo zdravo za gotovo da nam analitika daje korisne, djelotvorne uvide. Ono što često ne shvaćamo je kako naše vlastite predrasude i predrasude drugih utječu na odgovore koje nam daju čak i najsofisticiraniji softver i sustavi. Ponekad možemo biti nepošteno manipulirani, ali češće se u našu analitiku mogu uvući suptilne i nesvjesne predrasude. Motivacija iza pristrane analitike je višestruka. Ponekad na nepristrane rezultate koje očekujemo od znanosti utječu 1) suptilni izbori u načinu na koji su podaci predstavljeni, 2) nedosljedni ili nereprezentativni podaci, 3) način na koji su sustavi umjetne inteligencije trenirani, 4) neznanje, nekompetentnost istraživača ili drugih koji pokušavaju ispričati priču, 5) sama analiza.    

Prezentacija je pristrana

Neke je laži lakše uočiti od drugih. Kad znate što tražite, možda ćete lakše otkriti potencijal pogrešni grafikoni i dijagrami. 

Ima ih barem pet načina pogrešnog prikazivanja podataka: 1) Prikaži ograničeni skup podataka, 2). Prikaži nepovezane korelacije, 3) Prikaži podatke netočno, 4) Prikaži podatke nekonvencionalno ili 5). Prikaz podataka pretjerano pojednostavljenih.

Prikaži ograničeni skup podataka

Ograničavanje podataka ili ručni odabir nenasumičnog dijela podataka često može ispričati priču koja nije u skladu s općom slikom. Loše uzorkovanje ili odabiranje trešnje je kada analitičar koristi nereprezentativni uzorak za predstavljanje veće grupe. 

U ožujku 2020, Georgia's Department of Public Health objavio ovaj grafikon kao dio svog dnevnog izvješća o stanju. Zapravo postavlja više pitanja nego što daje odgovora.  

Jedna od stvari koja nedostaje je kontekst. Na primjer, bilo bi korisno znati koliki je postotak stanovništva za svaku dobnu skupinu. Drugi problem s tortnim grafikonom koji jednostavno izgleda su nejednake dobne skupine. 0-17 ima 18 godina, 18-59 ima 42, 60+ je otvorenog tipa, ali ima oko 40 godina. Zaključak, s obzirom na samu ovu tablicu, jest da je većina slučajeva u dobnoj skupini od 18 do 59 godina. Čini se da je dobna skupina od 60 i više godina manje pogođena slučajevima COVID-a. Ali ovo nije cijela priča.

Za usporedbu, ovaj različiti skup podataka na CDC web stranica prikazuje slučajeve COVID-a po dobnoj skupini s dodatnim podacima o postotku stanovništva SAD-a koji je u svakom dobnom rasponu.  

Ovo je BOLJE. Imamo više konteksta. Vidimo da dobne skupine 18-29, 30-39, 40-49 imaju veći postotak slučajeva od postotka dobne skupine u populaciji. Još uvijek postoje neke neujednačene dobne skupine. Zašto je 16-17 godina posebna dobna skupina? Ipak, ovo nije cijela priča, ali stručnjaci su pisali kolumne, davali predviđanja i naređivali manje od toga. Očito, kod COVID-a postoje mnoge varijable osim dobi koje utječu na to da se broji kao pozitivan slučaj: status cijepljenja, dostupnost testova, broj testiranja, komorbiditeti i mnoge druge. Sam broj slučajeva daje nepotpunu sliku. Većina stručnjaka također promatra broj umrlih ili postotke umrlih na 100,000 XNUMX stanovnika ili smrtne slučajeve kako bi vidjeli kako COVID utječe na svaku dobnu skupinu.

Prikaži nepovezane korelacije

Očito, postoji jaka korelacija između američke potrošnje na znanost, svemir i tehnologiju i broja samoubojstava vješanjem, davljenjem i gušenjem. Korelacija je 99.79%, gotovo savršeno podudaranje.  

Tko bi, međutim, tvrdio da su oni nekako povezani ili da jedno uzrokuje drugo? Postoje i drugi manje ekstremni primjeri, ali ništa manje lažni. Postoji slična jaka korelacija između slova u Winning Word of Scripps National Spelling Bee i broja ljudi koje su ubili otrovni pauci. Koincidencija? Ti odluči.

Drugi način grafikona ovih podataka koji bi mogao biti manje pogrešan bio bi uključivanje nule na obje Y-osi.

Prikaži podatke netočno

Od Kako loše prikazati podatke, američka država Georgia predstavila je Top 5 okruga s najvećim brojem potvrđenih slučajeva COVID-19.

Izgleda legitimno, zar ne? Jasno je da postoji trend pada potvrđenih slučajeva COVID-19. Možete li očitati X-os? X-os predstavlja vrijeme. Datumi će se obično povećavati slijeva nadesno. Ovdje vidimo malo putovanje kroz vrijeme na X-osi: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

Čekati? Što? X-os nije poredana kronološki. Dakle, koliko god trend izgledao lijepo, ne možemo izvući nikakve zaključke. Ako su datumi poredani, trake za broj slučajeva pokazuju više pilasti uzorak nego bilo kakav trend.

Ovdje je jednostavno rješenje sortirati datume na način na koji to radi kalendar.

Prikaži podatke na nekonvencionalan način

Svi smo zauzeti. Naš nas je mozak naučio donositi brze prosudbe na temelju pretpostavki koje su dosljedne u našem svijetu. Na primjer, svaki graf koji sam ikada vidio pokazuje susret x- i y- osi na nultim ili najnižim vrijednostima. Gledajući ukratko ovaj grafikon, koje zaključke možete izvući o učinku Floride “Držite se svog zakona.”? Sramim se priznati, ali ovaj grafikon me isprva prevario. Vaše oko jednostavno privlači tekst i strelica u sredini grafike. Dolje je gore na ovom grafikonu. Možda nije laž - podaci su tu. Ali, moram misliti da je to namijenjeno prevari. Ako još niste vidjeli, nula na y-osi je na vrhu. Dakle, kako podaci padaju, to znači više smrtnih slučajeva. Ovaj grafikon pokazuje da je broj ubojstava vatrenim oružjem povećan nakon 2005. na što ukazuje trend ide dolje.

Prikažite podatke previše pojednostavljene

Jedan primjer pretjeranog pojednostavljivanja podataka može se vidjeti kada analitičari iskoriste Simpsonov paradoks. Ovo je fenomen koji se događa kada se čini da agregirani podaci pokazuju drugačiji zaključak nego kada su razdvojeni u podskupove. Lako je upasti u ovu zamku gledajući agregirane postotke na visokoj razini. Jedna od najjasnijih ilustracija Simpsonova paradoksa na djelu povezana je s prosjeci udaranja.  

Ovdje vidimo da Derek Jeter ima veći ukupni prosjek udaranja od Davida Justicea za sezone 1995. i 1996. Paradoks dolazi kada shvatimo da je Justice nadmašio Jetera u prosjeku udaranja obje te godine. Ako pažljivo pogledate, ima smisla kada shvatite da je Jeter imao otprilike 4x više at-batova (nazivnik) 1996. uz 007 niži prosjek u 1996. Dok je Justice imao otprilike 10x veći broj at-batova na samo . 003 veći prosjek 1995. godine.

Prezentacija se čini jednostavnom, ali je Simpsonov paradoks, svjesno ili nesvjesno, doveo do netočnih zaključaka. Nedavno su se u vijestima i na društvenim medijima pojavili primjeri Simpsonovog paradoksa u vezi s cjepivima i smrtnošću od COVID-a. Jedan grafikon prikazuje linijski grafikon koji uspoređuje stope smrtnosti između cijepljenih i necijepljenih osoba u dobi od 10 do 59 godina. Grafikon pokazuje da necijepljeni stalno imaju nižu stopu smrtnosti. Što se ovdje događa?  

Problem je sličan onom koji vidimo s prosjekom udaranja. Nazivnik je u ovom slučaju broj jedinki u svakoj dobnoj skupini. Grafikon kombinira grupe koje imaju različite ishode. Promatramo li posebno stariju dobnu skupinu 50-59 godina, vidimo da cijepljeni prolaze bolje. Isto tako, ako pogledamo 10-49, također vidimo da cijepljeni prolaze bolje. Paradoksalno, kada se gleda kombinirani skup, čini se da necijepljeni imaju lošiji ishod. Na taj način možete argumentirati suprotne argumente pomoću podataka.

Podaci su pristrani

Podacima se ne može uvijek vjerovati. Čak je iu znanstvenoj zajednici više od trećine ispitanih istraživača priznalo “upitne istraživačke prakse.”  Drugi istraživanje prijevara detektiv kaže: “Postoji vrlo vjerojatno mnogo više prijevara u podacima – tablicama, linijskim grafikonima, sekvenciranim podacima [– nego što zapravo otkrivamo]. Svatko tko sjedi za kuhinjskim stolom može staviti neke brojeve u proračunsku tablicu i napraviti linijski grafikon koji izgleda uvjerljivo.”

Ovo prvo primjer izgleda da je netko upravo to napravio. Ne kažem da je ovo prijevara, ali kao anketa jednostavno ne generira podatke koji bi pridonijeli informiranoj odluci. Čini se da je anketa pitala ispitanike o mišljenju o kavi na benzinskoj postaji ili nekom drugom relevantnom aktualnom događaju. 

  1. Divan 
  2. Velik
  3. Vrlo dobro 

Obrezao sam post na Twitteru kako bih uklonio reference na krivca, ali ovo je zapravo cijeli grafikon konačnih rezultata ankete. Ovakva istraživanja nisu neuobičajena. Očito, svaki grafikon izrađen na temelju podataka dobivenih odgovorima pokazat će da se dotična kava ne smije propustiti.  

Problem je u tome što biste preskočili anketu da ste dobili ovu anketu i niste pronašli odgovor koji odgovara vašem razmišljanju. Ovo može biti ekstreman primjer kako se mogu stvoriti nepouzdani podaci. Međutim, loš dizajn ankete može dovesti do manjeg broja odgovora, a oni koji odgovore imaju samo jedno mišljenje, samo je pitanje stupnja. Podaci su pristrani.

Ovaj drugi primjer pristranosti podataka je iz datoteka "Najgori obmanjujući grafikoni za COVID 19". 

Opet, ovo je suptilno i nije potpuno očito. Trakasti grafikon pokazuje glatko – gotovo previše glatko – smanjenje postotka pozitivnih slučajeva COVID-19 tijekom vremena za okrug na Floridi. Lako se može zaključiti da se slučajevi smanjuju. To je sjajno, vizualizacija točno predstavlja podatke. Problem je u podacima. Dakle, to je podmuklija predrasuda jer je ne možete vidjeti. Zapečeno je u podacima. Pitanja koja trebate postaviti uključuju tko se testira? Drugim riječima, koji je nazivnik, odnosno broj stanovnika čiji postotak gledamo. Pretpostavka je da se radi o cjelokupnoj populaciji ili barem reprezentativnom uzorku.

Međutim, tijekom tog razdoblja u ovoj županiji testovi su davani samo ograničenom broju ljudi. Morali su imati simptome slične COVID-u ili su nedavno putovali u zemlju s popisa žarišta. Dodatno zbunjujuće rezultate čini činjenica da je svaki pozitivan test prebrojan i svaki negativni test je prebrojan. Tipično, kada bi pojedinac bio pozitivan na testiranju, ponovno bi se testirao kada bi virus prošao svojim tijekom i bio bi negativan. Dakle, u određenom smislu, za svaki pozitivan slučaj, postoji negativan testni slučaj koji ga poništava. Velika većina testova je negativna i broje se negativni testovi svakog pojedinca. Možete vidjeti koliko su podaci pristrani i nisu osobito korisni za donošenje odluka. 

AI unos i obuka su pristrani

Postoje najmanje dva načina na koja umjetna inteligencija može dovesti do pristranih rezultata: počevši s pristranim podacima ili korištenjem pristranih algoritama za obradu valjanih podataka.  

Pristrani unos

Mnogi od nas imaju dojam da se umjetnoj inteligenciji može vjerovati da će izračunati brojke, primijeniti svoje algoritme i dati pouzdanu analizu podataka. Umjetna inteligencija može biti pametna samo onoliko koliko je istrenirana. Ako su podaci na kojima se obučava nesavršeni, rezultatima ili zaključcima također se neće moći vjerovati. Slično gornjem slučaju pristranosti ankete, postoji više načina na koje podaci mogu biti pristran u strojnom učenju:.  

  • Pristranost uzorka – skup podataka o obuci nije reprezentativan za cijelu populaciju.
  • Pristranost isključenja – ponekad je ono što se čini izvanrednim vrijednostima zapravo valjano ili, gdje povlačimo crtu što treba uključiti (poštanski brojevi, datumi itd.).
  • Mjerna pogreška – konvencija je da se uvijek mjeri od središta i dna meniska, na primjer, kada se mjere tekućine u odmjernim tikvicama ili epruvetama (osim žive).
  • Pristranost prisjećanja – kada istraživanje ovisi o pamćenju sudionika.
  • Pristranost promatrača – znanstvenici su, kao i svi ljudi, skloniji vidjeti ono što očekuju vidjeti.
  • Seksističke i rasističke predrasude – spol ili rasa mogu biti previše ili premalo zastupljeni.  
  • Pristranost asocijacija – podaci jačaju stereotipe

Da bi umjetna inteligencija dala pouzdane rezultate, podaci o obuci moraju predstavljati stvarni svijet. Kao što smo spomenuli u prethodnom članku na blogu, priprema podataka je kritična kao i svaki drugi podatkovni projekt. Nepouzdani podaci mogu naučiti sustave strojnog učenja pogrešnu lekciju i rezultirat će pogrešnim zaključkom. Rečeno je: “Svi podaci su pristrani. Ovo nije paranoja. Ovo je činjenica.” – dr. Sanjiv M. Narayan, Medicinski fakultet Sveučilišta Stanford.

Korištenje pristranih podataka za obuku dovelo je do brojnih značajnih kvarova umjetne inteligencije. (Primjeri ovdje i ovdje, istraživanje ovdje..)

Pristrani algoritmi

Algoritam je skup pravila koja prihvaćaju ulaz i stvaraju izlaz za odgovor na poslovni problem. Često su to dobro definirana stabla odlučivanja. Algoritmi djeluju poput crnih kutija. Nitko nije siguran kako rade, često, čak ni oni tvrtke koje ih koriste. Oh, i često su vlasnički. Njihova misteriozna i složena priroda jedan je od razloga zašto su pristrani algoritmi tako podmukli. . 

Razmotrite algoritme umjetne inteligencije u medicini, ljudskim resursima ili financijama koji uzimaju u obzir rasu. Ako je rasa faktor, algoritam ne može biti rasno slijep. Ovo nije teoretski. Problemi poput ovih otkriveni su u stvarnom svijetu pomoću umjetne inteligencije zapošljavanje, dijeljenje vožnje, zahtjev za kredits i transplantacije bubrega

Suština je da ako su vaši podaci ili algoritmi loši, gore nego beskorisni, mogu biti opasni. Postoji nešto poput "algoritamska revizija.” Cilj je pomoći organizacijama da identificiraju potencijalne rizike povezane s algoritmom koji se odnosi na pravednost, pristranost i diskriminaciju. Drugdje, Facebook koristi umjetnu inteligenciju za borbu protiv pristranosti u umjetnoj inteligenciji.

Ljudi su pristrani

Imamo ljude s obje strane jednadžbe. Ljudi pripremaju analizu i ljudi dobivaju informacije. Postoje istraživači i postoje čitatelji. U svakoj komunikaciji može doći do problema u prijenosu ili prijemu.

Uzmimo, na primjer, vrijeme. Što znači "mogućnost kiše"? Prvo, što meteorolozi misle kad kažu da postoji mogućnost kiše? Prema američkoj vladi National Weather Service, mogućnost kiše, ili ono što oni zovu vjerojatnost oborine (PoP), jedan je od najmanje razumljivih elemenata u vremenskoj prognozi. Ima standardnu ​​definiciju: "Vjerojatnost oborine jednostavno je statistička vjerojatnost 0.01 inča [sic] [sic] više oborina na danom području u danom prognoziranom području u navedenom vremenskom razdoblju." "Dato područje" je područje prognoze, ili broadlijevano područje. To znači da službena vjerojatnost oborine ovisi o pouzdanosti da će negdje u tom području padati kiša i postotku područja koje će biti mokro. Drugim riječima, ako je meteorolog uvjeren da će padati kiša u prognoziranom području (Pouzdanost = 100%), tada PoP predstavlja dio područja na kojem će pasti kiša.  

Pariška ulica; Kišni dan,Gustave Caillebotte (1848-1894) Chicago Art Institute Public Domain

Mogućnost kiše ovisi o samopouzdanju i području. Nisam to znao. Pretpostavljam da ni drugi ljudi to ne znaju. Oko 75% stanovništva ne razumije točno kako se PoP izračunava ili što on treba predstavljati. Dakle, da li nas zavaravaju ili je to problem percepcije. Nazovimo to percepcijom padalina. Zamjeramo li prognozeru vremena? Da budemo pošteni, ima ih zbunjenost i među prognozerima vremena. U jednom pregled, 43% anketiranih meteorologa reklo je da postoji vrlo malo dosljednosti u definiciji PoP-a.

Sama analiza je pristrana

Od pet čimbenika utjecaja, sama analiza može biti najviše iznenađujuća. U znanstvenom istraživanju koje rezultira objavljivanjem recenziranog rada, obično se postavlja hipoteza o teoriji, definiraju se metode za testiranje hipoteze, podaci se prikupljaju, a zatim se podaci analiziraju. Vrsta analize koja se provodi i način na koji se provodi nedovoljno je cijenjen s obzirom na to kako utječe na zaključke. U papir objavljen ranije ove godine (siječanj 2022.), u International Journal of Cancer, autori su procijenili jesu li rezultati randomiziranih kontroliranih ispitivanja i retrospektivnih promatračkih studija. Njihovi nalazi su zaključili da,

Mijenjanjem analitičkih izbora u komparativnom istraživanju učinkovitosti, dobili smo suprotne rezultate. Naši rezultati sugeriraju da bi neke retrospektivne opservacijske studije mogle otkriti da liječenje poboljšava ishode za pacijente, dok bi druga slična studija mogla otkriti da ne, jednostavno na temelju analitičkih izbora.

U prošlosti, kad ste čitali članak u znanstvenom časopisu, ako ste poput mene, možda ste pomislili da se rezultati ili zaključci odnose samo na podatke. Sada se čini da rezultati, odnosno hoće li početna hipoteza biti potvrđena ili opovrgnuta, također mogu ovisiti o metodi analize.

Drugi učiti pronašao slične rezultate. Članak, Mnogo analitičara, jedan skup podataka: učiniti transparentnim kako varijacije u analitičkim izborima utječu na rezultate, opisuje kako su isti skup podataka dali 29 različitih timova na analizu. Analiza podataka često se smatra strogim, dobro definiranim procesom koji vodi do jednog zaključka.  

Unatoč prigovorima metodologa, lako je previdjeti činjenicu da rezultati mogu ovisiti o odabranoj analitičkoj strategiji, koja je i sama prožeta teorijom, pretpostavkama i točkama izbora. U mnogim slučajevima postoji mnogo razumnih (i mnogo nerazumnih) pristupa procjeni podataka koji se odnose na istraživačko pitanje.

Istraživači su skupili analizu podataka i došli do zaključka da sva istraživanja uključuju subjektivne odluke – uključujući koju vrstu analize koristiti – koje mogu utjecati na konačan ishod studije.

Preporuka dr istraživač koji je analizirao gornju studiju treba biti oprezan pri korištenju jednog dokumenta u donošenju odluka ili izvlačenju zaključaka.

Rješavanje pristranosti u Analyticsu

Ovo je jednostavno zamišljena kao priča o upozorenju. Znanje nas može zaštititi od prevare. Što smo svjesniji mogućih metoda koje bi skener mogao upotrijebiti da nas prevari, manja je vjerojatnost da ćemo biti zavedeni, recimo, džeparoševim lažnim smjernicama ili glatkim razgovorom o Ponzi igrokazu. Tako je i s razumijevanjem i prepoznavanjem potencijalnih pristranosti koje utječu na našu analitiku. Ako smo svjesni potencijalnih utjecaja, mogli bismo bolje predstaviti priču i na kraju donijeti bolje odluke.