Analitična laž

by Avgust 31, 2022BI/Analitika0 komentarji

Analitična laž

Pristranskost analize

 

Mark Twain je verjetno rekel nekaj takega: »Obstajajo tri vrste laži: laži, preklete laži in analitika«. 

Za samoumevno se nam zdi, da nam analitika daje uporabne vpoglede, na podlagi katerih lahko ukrepamo. Pogosto se ne zavedamo, kako naše lastne pristranskosti in predsodki drugih vplivajo na odgovore, ki nam jih dajejo celo najbolj izpopolnjena programska oprema in sistemi. Včasih lahko z nami nepošteno manipulirajo, pogosteje pa se v našo analitiko prikradejo subtilne in nezavedne pristranskosti. Motivacija za pristransko analitiko je večplastna. Včasih na nepristranske rezultate, ki jih pričakujemo od znanosti, vplivajo 1) subtilne izbire pri predstavitvi podatkov, 2) nedosledni ali nereprezentativni podatki, 3) način usposabljanja sistemov umetne inteligence, 4) nevednost, nesposobnost raziskovalcev ali drugih, ki poskušajo povedati zgodbo, 5) sama analiza.    

Predstavitev je pristranska

Nekatere laži je lažje opaziti kot druge. Ko veste, kaj iskati, boste morda lažje zaznali potencial zavajajoče grafe in grafikone. 

Vsaj jih je pet načinov za zavajajoče prikazovanje podatkov: 1) Pokaži omejen nabor podatkov, 2). Pokaži nepovezane korelacije, 3) Prikaži podatke netočno, 4) Prikaži podatke nekonvencionalno ali 5). Prikaži preveč poenostavljene podatke.

Prikaži omejen nabor podatkov

Omejevanje podatkov ali ročno izbiranje nenaključnega dela podatkov lahko pogosto pove zgodbo, ki ni skladna s splošno sliko. Slabo vzorčenje ali nabiranje češenj je, ko analitik uporabi nereprezentativen vzorec za predstavitev večje skupine. 

Marca 2020, Ministrstvo za javno zdravje Gruzije objavil ta grafikon kot del svojega dnevnega poročila o stanju. Pravzaprav odpira več vprašanj, kot daje odgovorov.  

Ena od stvari, ki manjka, je kontekst. Na primer, koristno bi bilo vedeti, kolikšen je odstotek prebivalstva za vsako starostno skupino. Druga težava s preprostim tortnim grafikonom so neenakomerne starostne skupine. 0-17 ima 18 let, 18-59 ima 42, 60+ je odprt, vendar ima približno 40 let. Sklep, samo glede na ta grafikon, je, da je večina primerov v starostni skupini od 18 do 59 let. Zdi se, da je starostna skupina nad 60 let manj prizadeta zaradi primerov COVID. Vendar to še ni vsa zgodba.

Za primerjavo, ta različni niz podatkov o spletno mesto CDC prikazuje primere COVID po starostnih skupinah z dodatnimi podatki o odstotku prebivalstva ZDA, ki je v vsaki starostni skupini.  

To je boljše. Imamo več konteksta. Vidimo lahko, da imajo starostne skupine 18-29, 30-39, 40-49 vse višji odstotek primerov kot odstotek starostne skupine v populaciji. Še vedno je nekaj neenakomernih starostnih skupin. Zakaj je 16-17 let ločena starostna skupina? Še vedno pa to ni celotna zgodba, a poznavalci so pisali kolumne, dajali napovedi in ukaze o manj kot tem. Očitno je, da pri COVID poleg starosti obstaja veliko spremenljivk, ki vplivajo na štetje kot pozitiven primer: status cepljenja, razpoložljivost testov, število testiranj, sočasne bolezni in številne druge. Število primerov samo po sebi daje nepopolno sliko. Večina strokovnjakov upošteva tudi število smrti ali odstotke smrti na 100,000 prebivalcev ali število smrtnih primerov, da bi ugotovili, kako COVID vpliva na vsako starostno skupino.

Pokaži nepovezane korelacije

Očitno obstaja a močna korelacija med izdatki ZDA za znanost, vesolje in tehnologijo ter številom samomorov z obešanjem, davljenjem in zadušitvijo. Korelacija je 99.79 %, skoraj popolno ujemanje.  

Kdo pa bi trdil, da so ti nekako povezani ali da eden povzroča drugega? Obstajajo tudi drugi manj ekstremni primeri, a nič manj lažni. Obstaja podobna močna povezava med črkami v Winning Word of Scripps National Spelling Bee in številom ljudi, ki so jih ubili strupeni pajki. Naključje? Ti odločaš.

Drug način za prikaz teh podatkov, ki je lahko manj zavajajoč, bi bil vključitev ničle na obe osi Y.

Prikaži podatke netočno

od Kako slabo prikazati podatke, je ameriška zvezna država Georgia predstavila 5 najboljših okrožij z največjim številom potrjenih primerov COVID-19.

Izgleda zakonito, kajne? Jasno je, da se število potrjenih primerov COVID-19 zmanjšuje. Ali znate brati X-os? Os X predstavlja čas. Običajno se datumi povečajo od leve proti desni. Tukaj vidimo majhno potovanje skozi čas na osi X: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

Čakati? Kaj? Os X ni razvrščena kronološko. Torej, ne glede na to, kako lepo je videti trend, ne moremo narediti nobenih zaključkov. Če so datumi urejeni, stolpci za število primerov kažejo bolj zobato obliko kot kakršen koli trend.

Enostavna rešitev je, da datume razvrstite tako, kot to počne koledar.

Prikaži podatke nekonvencionalno

Vsi smo zaposleni. Naši možgani so nas naučili, da hitro presojamo na podlagi predpostavk, ki so bile dosledne v našem svetu. Na primer, vsak graf, ki sem ga kdaj videl, prikazuje srečanja osi x in y pri ničelnih ali najnižjih vrednostih. Če na kratko pogledate ta grafikon, kakšne zaključke lahko potegnete o učinku Floride »Držite se svojega zakona.”? Sram me je priznati, ampak ta graf me je sprva preslepil. Vaše oko bo priročno pritegnilo besedilo in puščica na sredini grafike. V tem grafu je dol navzgor. Morda ni laž – podatki so tam v redu. Vendar moram misliti, da je namenjeno zavajanju. Če še niste videli, je ničla na osi y na vrhu. Torej, ker podatki padajo, to pomeni več smrti. Ta grafikon prikazuje število umorov z uporabo strelnega orožja povečal po letu 2005, kar nakazuje trend, ki gre navzdol.

Prikažite podatke preveč poenostavljeno

En primer pretirane poenostavitve podatkov lahko vidimo, ko analitiki izkoristijo Simpsonov paradoks. To je pojav, do katerega pride, ko se zdi, da združeni podatki prikazujejo drugačen zaključek, kot če so ločeni na podmnožice. V to past se je zlahka ujeti, če pogledamo agregirane odstotke na visoki ravni. Ena najjasnejših ilustracij Simpsonovega paradoksa na delu je povezana z povprečje udarcev.  

Tukaj vidimo, da ima Derek Jeter višje skupno povprečje udarcev kot David Justice za sezone 1995 in 1996. Paradoks nastopi, ko ugotovimo, da je Justice v obeh letih premagal Jeterja v povprečju udarcev. Če natančno pogledate, je logično, ko ugotovite, da je imel Jeter leta 4 približno 1996-krat več udarcev (imenovalec) pri 007 nižjem povprečju leta 1996. Medtem ko je imel Justice približno 10-krat več udarcev pri samo . 003 višje povprečje leta 1995.

Predstavitev je videti enostavna, vendar je Simpsonov paradoks, hote ali nehote, vodil do napačnih zaključkov. Pred kratkim so se v novicah in na družbenih omrežjih pojavili primeri Simpsonovega paradoksa, povezani s cepivi in ​​umrljivostjo zaradi covida. ena grafikon prikazuje črtni graf, ki primerja stopnje umrljivosti med cepljenimi in necepljenimi za ljudi, stare od 10 do 59 let. Tabela prikazuje, da imajo necepljeni dosledno nižjo stopnjo umrljivosti. Kaj se tukaj dogaja?  

Težava je podobna tisti, ki jo vidimo pri povprečjih udarcev. Imenovalec je v tem primeru število posameznikov v posamezni starostni skupini. Graf združuje skupine, ki imajo različne rezultate. Če pogledamo starejšo starostno skupino 50-59 let posebej, vidimo, da gre bolje cepljenim. Podobno, če pogledamo 10-49, tudi vidimo, da se cepljeni bolje odrežejo. Paradoksalno je, da se zdi, da imajo necepljeni, če pogledamo kombinirani niz, slabši rezultat. Na ta način lahko z uporabo podatkov utemeljite nasprotne argumente.

Podatki so pristranski

Podatkom ni vedno mogoče zaupati. Tudi v znanstveni skupnosti je priznala več kot tretjina anketiranih raziskovalcev "vprašljive raziskovalne prakse."  Še ena raziskovalni detektiv goljufij pravi: »Verjetno je veliko več goljufij s podatki – tabelami, črtnimi grafi, podatki o zaporedju [– kot jih dejansko odkrivamo]. Vsak, ki sedi za kuhinjsko mizo, lahko vnese nekaj številk v preglednico in naredi črtni graf, ki je videti prepričljiv.«

Najprej Primer zgleda, da je nekdo naredil prav to. Ne pravim, da je to goljufija, ampak kot raziskava preprosto ne ustvari nobenih podatkov, ki bi prispevali k odločitvi na podlagi informacij. Videti je, da je anketa vprašala anketirance o njihovem mnenju o kavi na bencinski črpalki ali kakšnem drugem pomembnem aktualnem dogodku. 

  1. krasen 
  2. Velika
  3. Zelo dobro 

Objavo na Twitterju sem obrezal, da odstranim omembe krivca, vendar je to dejansko celoten grafikon končnih rezultatov ankete. Takšne ankete niso neobičajne. Očitno bo kateri koli grafikon, ustvarjen na podlagi podatkov, ki izhajajo iz odgovorov, pokazal, da zadevne kave ne smete zamuditi.  

Težava je v tem, da če bi vam bila dana ta anketa in ne bi našli odgovora, ki bi ustrezal vašemu razmišljanju, bi anketo preskočili. To je lahko skrajni primer, kako se lahko ustvarijo nezaupljivi podatki. Slaba zasnova ankete pa lahko povzroči manj odgovorov in tisti, ki se odzovejo, imajo samo eno mnenje, gre le za stopnjo. Podatki so pristranski.

Ta drugi primer pristranskosti podatkov je iz datotek »Najslabši zavajajoči grafi COVID 19«. 

Še enkrat, to je subtilno in ni povsem očitno. Stolčni graf prikazuje gladko – skoraj preveč gladko – upadanje odstotka pozitivnih primerov COVID-19 skozi čas za okrožje na Floridi. Z lahkoto bi sklepali, da primeri upadajo. To je super, vizualizacija natančno predstavlja podatke. Problem je v podatkih. Torej, to je bolj zahrbtna pristranskost, ker tega ne vidite. Zapečeno je v podatke. Vprašanja, ki jih morate zastaviti, vključujejo, kdo se testira? Z drugimi besedami, kaj je imenovalec ali populacija, katere odstotek gledamo. Predpostavka je, da gre za celotno populacijo ali vsaj za reprezentativen vzorec.

Vendar so bili v tem obdobju v tem okrožju testirani le omejenemu številu ljudi. Morali so imeti simptome, podobne COVID-u, ali so pred kratkim potovali v državo s seznama vročih točk. Dodatno zmedo rezultatov predstavlja dejstvo, da se je štel vsak pozitiven test in vsak negativen test. Običajno, ko je bil posameznik pozitiven na testu, bi ga ponovno testirali, ko bi se virus končal, in bi bil test negativen. Torej v nekem smislu za vsak pozitiven primer obstaja negativen testni primer, ki ga izniči. Velika večina testov je negativnih in pri vsakem posamezniku so šteli negativne teste. Vidite lahko, kako so podatki pristranski in niso posebej uporabni za sprejemanje odločitev. 

Vnos in usposabljanje AI sta pristranska

Obstajata vsaj dva načina, na katera lahko umetna inteligenca vodi do pristranskih rezultatov: začenši s pristranskimi podatki ali uporaba pristranskih algoritmov za obdelavo veljavnih podatkov.  

Pristranski vnos

Mnogi od nas imamo vtis, da lahko umetni inteligenci zaupamo, da bo izračunala številke, uporabila svoje algoritme in izdala zanesljivo analizo podatkov. Umetna inteligenca je lahko pametna le toliko, kolikor je usposobljena. Če so podatki, na podlagi katerih se usposablja, nepopolni, tudi rezultatom ali zaključkom ne bo mogoče zaupati. Podobno kot v zgornjem primeru pristranskosti ankete, obstaja več načinov, na katere so lahko podatki pristranski v strojnem učenju:.  

  • Pristranskost vzorca – nabor podatkov o usposabljanju ni reprezentativen za celotno populacijo.
  • Pristranskost pri izključitvi – včasih je tisto, kar se zdi izstopajoče, dejansko veljavno ali, kjer potegnemo črto, kaj vključiti (poštne številke, datume itd.).
  • Pristranskost meritve – dogovor je, da se vedno meri od sredine in dna meniskusa, na primer pri merjenju tekočin v merilnih bučkah ali epruvetah (razen živega srebra).
  • Pristranskost pri spominjanju – ko je raziskava odvisna od spomina udeležencev.
  • Pristranskost opazovalca – znanstveniki so tako kot vsi ljudje bolj nagnjeni k temu, da vidijo tisto, kar pričakujejo.
  • Seksistična in rasistična pristranskost – spol ali rasa sta lahko preveč ali premalo zastopana.  
  • Asociacijska pristranskost – podatki krepijo stereotipe

Da bi umetna inteligenca vrnila zanesljive rezultate, morajo njeni podatki o usposabljanju predstavljati resnični svet. Kot smo razpravljali v prejšnjem članku v spletnem dnevniku, je priprava podatkov ključnega pomena in tako kot vsak drug podatkovni projekt. Nezanesljivi podatki lahko sisteme strojnega učenja naučijo napačne lekcije in povzročijo napačen zaključek. To je dejalo: »Vsi podatki so pristranski. To ni paranoja. To je dejstvo.” – Dr. Sanjiv M. Narayan, Medicinska fakulteta Univerze Stanford.

Uporaba pristranskih podatkov za usposabljanje je povzročila številne opazne napake AI. (Primeri tukaj in tukaj, raziskave tukaj..)

Pristranski algoritmi

Algoritem je niz pravil, ki sprejmejo vhod in ustvarijo izhod za odgovor na poslovni problem. Pogosto so dobro definirana drevesa odločanja. Algoritmi delujejo kot črne skrinjice. Pogosto nihče ni prepričan, kako delujejo, niti ne podjetja, ki jih uporabljajo. Oh, in pogosto so lastniški. Njihova skrivnostna in kompleksna narava je eden od razlogov, zakaj so pristranski algoritmi tako zahrbtni. . 

Razmislite o algoritmih umetne inteligence v medicini, HR ali financah, ki upoštevajo raso. Če je rasa dejavnik, algoritem ne more biti rasno slep. To ni teoretično. Takšne težave so bile odkrite v resničnem svetu z uporabo umetne inteligence najem, vožnja-deljenje, za posojiloy, in presaditev ledvic

Bistvo je, da so lahko nevarni, če so vaši podatki ali algoritmi slabi, prej kot neuporabni. Obstaja nekaj takega kot "algoritemska revizija.” Cilj je pomagati organizacijam prepoznati morebitna tveganja, povezana z algoritmom, saj se nanaša na poštenost, pristranskost in diskriminacijo. drugje, Facebook uporablja AI za boj proti pristranskosti v AI.

Ljudje so pristranski

Imamo ljudi na obeh straneh enačbe. Ljudje pripravljajo analize in ljudje prejemajo informacije. So raziskovalci in so bralci. Pri vsaki komunikaciji lahko pride do težav pri prenosu ali sprejemu.

Vzemimo na primer vreme. Kaj pomeni "možnost dežja"? Prvič, kaj mislijo meteorologi, ko pravijo, da obstaja možnost dežja? Po navedbah ameriške vlade Nacionalna vremenska služba, možnost dežja ali kar imenujejo verjetnost padavin (PoP), je eden najmanj razumljenih elementov v vremenski napovedi. Ima standardno definicijo: "Verjetnost padavin je preprosto statistična verjetnost za 0.01" palca [sic] [sic] več padavin na danem območju v danem napovedanem območju v določenem časovnem obdobju." »Dano območje« je napovedano območje ali broadcast območje. To pomeni, da je uradna verjetnost padavin odvisna od zaupanja, da bo nekje na območju deževalo, in odstotka omočenega območja. Z drugimi besedami, če je meteorolog prepričan, da bo na napovedanem območju deževalo (Zanesljivost = 100 %), potem PoP predstavlja del območja, na katerem bo deževalo.  

Pariška ulica; Deževen dan,Gustave Caillebotte (1848-1894) Chicago Art Institute Public Domain

Možnost dežja je odvisna od samozavesti in območja. Nisem vedel, da je. Sumim, da tudi drugi tega ne vedo. Približno 75 % prebivalstva ne razume natančno, kako se izračuna PoP ali kaj naj predstavlja. Torej, ali nas zavajajo ali je to problem percepcije. Recimo temu zaznavanje padavin. Zamerimo napovedovalcu vremena? Po pravici povedano, nekaj jih je zmeda tudi med napovedovalci vremena. V enem Raziskava43 % anketiranih meteorologov je dejalo, da je definicija PoP zelo malo dosledna.

Sama analiza je pristranska

Od petih vplivnih dejavnikov je analiza sama morda najbolj presenetljiva. V znanstvenih raziskavah, katerih rezultat je objava pregledanega prispevka, se običajno postavi hipoteza o teoriji, opredelijo metode za testiranje hipoteze, zberejo se podatki, nato pa se podatki analizirajo. Vrsta analize, ki se izvaja, in način, na katerega se izvaja, se premalo ceni glede na to, kako vpliva na zaključke. V papirja objavljenem v začetku tega leta (januarja 2022) v International Journal of Cancer, so avtorji ocenili, ali so rezultati randomiziranih kontroliranih preskušanj in retrospektivnih opazovalnih študij. Njihove ugotovitve so zaključile,

Z različnimi analitičnimi izbirami v raziskavah primerjalne učinkovitosti smo ustvarili nasprotne rezultate. Naši rezultati kažejo, da lahko nekatere retrospektivne opazovalne študije ugotovijo, da zdravljenje izboljša rezultate za bolnike, medtem ko druga podobna študija morda ugotovi, da ne, preprosto na podlagi analitičnih odločitev.

Če ste kot jaz v preteklosti, ko ste brali članek v znanstveni reviji, ste morda mislili, da so rezultati ali zaključki povezani s podatki. Zdaj se zdi, da so lahko rezultati oziroma ali bo začetna hipoteza potrjena ali ovržena tudi odvisna od metode analize.

Še ena študija našli podobne rezultate. Članek, Veliko analitikov, en nabor podatkov: preglednost, kako razlike v analitičnih odločitvah vplivajo na rezultate, opisuje, kako so isti nabor podatkov dali 29 različnim ekipam v analizo. Analiza podatkov se pogosto obravnava kot strog, natančno definiran proces, ki vodi do enega samega zaključka.  

Kljub pripombam metodologov je zlahka spregledati dejstvo, da so rezultati lahko odvisni od izbrane analitične strategije, ki je sama prežeta s teorijo, predpostavkami in točkami izbire. V mnogih primerih obstaja veliko razumnih (in veliko nerazumnih) pristopov k ocenjevanju podatkov, ki se nanašajo na raziskovalno vprašanje.

Raziskovalci so množično pridobili analizo podatkov in prišli do zaključka, da vse raziskave vključujejo subjektivne odločitve – vključno s tem, katero vrsto analize uporabiti – kar lahko vpliva na končni izid študije.

Priporočilo drugega raziskovalec ki je analiziral zgornjo študijo, naj bo previden pri uporabi enega samega dokumenta pri sprejemanju odločitev ali sklepanju.

Odpravljanje pristranskosti v analitiki

To je preprosto mišljeno kot opozorilna zgodba. Znanje nas lahko zaščiti pred prevarami. Bolj kot smo seznanjeni z možnimi metodami, ki bi jih lahko uporabil skener, da bi nas preslepil, manjša je verjetnost, da nas bo zavedel, recimo, žeparjev napačno usmerjanje ali gladko govorjenje o Ponzijevi igri. Tako je z razumevanjem in prepoznavanjem potencialnih pristranskosti, ki vplivajo na našo analitiko. Če se zavedamo morebitnih vplivov, bi morda lahko zgodbo bolje predstavili in na koncu sprejeli boljše odločitve.