Greiningarlygi

by Ágúst 31, 2022BI/Aalytics0 athugasemdir

Greiningarlygi

Hlutdrægni greiningarinnar

 

Mark Twain sagði umdeilanlega eitthvað eins og: „Það eru þrjár tegundir af lygum: lygar, fordæmdar lygar og greinandi. " 

Við tökum sem sjálfsögðum hlut að greining veitir okkur gagnlega, hagnýta innsýn. Það sem við gerum okkur oft ekki grein fyrir er hvernig okkar eigin hlutdrægni og annarra hafa áhrif á svörin sem við fáum jafnvel háþróaðasta hugbúnaðinn og kerfin. Stundum getur verið að okkur sé stjórnað á óheiðarlegan hátt, en oftar, það getur verið lúmskur og ómeðvitaður hlutdrægni sem læðast inn í greiningar okkar. Hvatinn að baki hlutdrægri greiningu er margþættur. Stundum eru óhlutdrægar niðurstöður sem við búumst við frá vísindum undir áhrifum af 1) fíngerðum valkostum í því hvernig gögnin eru sett fram, 2) ósamræmi eða ekki táknræn gögn, 3) hvernig gervigreind kerfi eru þjálfuð, 4) fáfræði, vanhæfni vísindamanna eða annarra sem reyna að segja söguna, 5) greiningin sjálf.    

Kynningin er hlutdræg

Sumar lygarnar eru auðveldari að koma auga á en aðrar. Þegar þú veist hvað þú átt að leita að gætirðu auðveldlega greint hugsanlega villandi línurit og töflur. 

Það eru a.m.k. fimm leiðir til að birta gögn á villandi hátt: 1) Sýna takmarkað gagnasett, 2). Sýna óskyld fylgni, 3) Sýna gögn á ónákvæman hátt, 4) Sýna gögn óhefðbundið, eða 5). Sýna gögn of einfölduð.

Sýna takmarkað gagnasett

Að takmarka gögnin, eða velja handahófskenndan hluta af gögnunum, getur oft sagt sögu sem er ekki í samræmi við heildarmyndina. Slæm sýnataka, eða kirsuberjatínsla, er þegar sérfræðingur notar sýni sem ekki er dæmigert til að tákna stærri hóp. 

Í mars 2020, Lýðheilsudeild Georgíu birti þetta kort sem hluta af daglegri stöðuskýrslu sinni. Það vekur í raun fleiri spurningar en það svarar.  

Eitt af því sem vantar er samhengi. Til dæmis væri gagnlegt að vita hvert hlutfall íbúanna er fyrir hvern aldurshóp. Annað mál með einfalt útlit kökuritið er ójafnir aldurshópar. 0-17 hefur 18 ár, 18-59 hefur 42, 60+ er opinn endi, en hefur um 40 ár. Niðurstaðan, með hliðsjón af þessari mynd eingöngu, er að meirihluti tilfella er á aldrinum 18-59 ára. 60+ ára aldurshópurinn lítur út fyrir að verða fyrir minna alvarlegum áhrifum af COVID tilfellum. En þetta er ekki öll sagan.

Til samanburðar, þetta mismunandi gagnasett á CDC vefsíðu kortleggur COVID tilvik eftir aldurshópi með viðbótargögnum um hlutfall bandarískra íbúa sem er á hverju aldursbili.  

Þetta er betra. Við höfum meira samhengi. Við sjáum að aldurshópar 18-29, 30-39, 40-49 eru allir með hærra hlutfall tilfella en hlutfall aldurshópsins í þýðinu. Enn eru nokkrir ójafnir aldursflokkar. Af hverju er 16-17 ára sérstakur aldurshópur? Samt er þetta ekki öll sagan, en sérfræðingar hafa skrifað pistla, spáð og gefið umboð um minna en þetta. Augljóslega, með COVID, eru margar breytur auk aldurs sem hafa áhrif á að teljast jákvætt tilvik: bólusetningarstaða, framboð prófa, fjölda prófana, fylgisjúkdóma og margt fleira. Fjöldi mála gefur sjálft ófullkomna mynd. Flestir sérfræðingar skoða einnig fjölda dauðsfalla, eða hlutfall dauðsfalla á hverja 100,000 íbúa, eða banaslysa til að skoða hvernig COVID hefur áhrif á hvern aldurshóp.

Sýndu óskyld fylgni

Vitanlega er a sterk fylgni milli útgjalda Bandaríkjanna í vísindi, geim og tækni og fjölda sjálfsvíga með hengingu, kyrkingu og köfnun. Fylgnin er 99.79%, næstum fullkomin samsvörun.  

Hver myndi þó halda því fram að þetta tengist á einhvern hátt, eða eitt veldur öðru? Það eru önnur minna öfgakennd dæmi, en ekki síður svikin. Það er svipuð sterk fylgni á milli Letters in Winning Word of Scripps National Spelling Bee og fjölda fólks sem drepist af eitruðum köngulær. Tilviljun? Þú ræður.

Önnur leið til að kortleggja þessi gögn sem gætu verið minna villandi væri að hafa núll á báðum Y-ásunum.

Sýna gögn á rangan hátt

Frá Hvernig á að birta gögn illa, Bandaríkin, Georgia fylki, kynnti efstu 5 sýslurnar með mestan fjölda staðfestra COVID-19 tilfella.

Lítur lögmætur, ekki satt? Það er greinilega lækkun á staðfestum COVID-19 tilfellum. Getur þú lesið X-ásinn? X-ásinn táknar tímann. Venjulega munu dagsetningar hækka frá vinstri til hægri. Hér sjáum við smá tímaflakk á X-ásnum: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

Bíddu? Hvað? X-ásinn er ekki flokkaður í tímaröð. Svo, eins falleg og þróunin gæti litið út, getum við ekki dregið neinar ályktanir. Ef dagsetningarnar eru pantaðar sýna súlurnar fyrir fjölda mála meira sagtannmynstur en hvers kyns þróun.

Auðvelda leiðréttingin hér er að raða dagsetningum eins og dagatal gerir.

Sýna gögn óhefðbundið

Við erum öll upptekin. Heilinn okkar hefur kennt okkur að gera skjóta dóma byggða á forsendum sem hafa verið í samræmi í heiminum okkar. Til dæmis, hvert línurit sem ég hef nokkurn tíma séð sýnir x- og y- ásana mætast við núll eða lægstu gildi. Með því að skoða þessa töflu stuttlega, hvaða ályktanir geturðu dregið um áhrif Flórída „Standið lögum ykkar.“? Ég skammast mín fyrir að viðurkenna það, en þetta graf blekkti mig í fyrstu. Augað þitt er þægilega dregið að textanum og örinni í miðri myndinni. Niður er upp á þessu grafi. Það er kannski ekki lygi - gögnin eru í lagi þar. En ég verð að halda að það sé ætlað að blekkja. Ef þú hefur ekki séð hana enn þá er núll á y-ásnum efst. Svo, þegar gögnum lækkar, þýðir það fleiri dauðsföll. Þessi mynd sýnir að fjöldi morða með skotvopnum aukist eftir 2005, til marks um þróunina niður.

Sýndu gögnin of einfölduð

Eitt dæmi um of einföldun gagna má sjá þegar sérfræðingar nýta sér Simpson's Paradox. Þetta er fyrirbæri sem á sér stað þegar samanlögð gögn virðast sýna fram á aðra niðurstöðu en þegar þau eru aðgreind í undirmengi. Auðvelt er að falla í þessa gildru þegar litið er á samanlagðar prósentur á háu stigi. Ein skýrasta skýringin á þversögn Simpsons í vinnunni tengist slatta meðaltöl.  

Hér sjáum við að Derek Jeter er með hærra heildar meðaltal en David Justice fyrir 1995 og 1996 tímabil. Þversögnin kemur inn þegar við gerum okkur grein fyrir því að Justice vann Jeter í battameðaltali bæði þessi ár. Ef þú skoðar vandlega er skynsamlegt þegar þú áttar þig á því að Jeter var með u.þ.b. 4x fleiri kylfur (nefnarinn) árið 1996 með .007 lægra meðaltali árið 1996. En Justice var með u.þ.b. 10x fjölda kylfinga á aðeins . 003 hærra meðaltal árið 1995.

Framsetningin virðist beinskeytt, en þversögn Simpsons hefur, vitandi eða óafvitandi, leitt til rangra ályktana. Nýlega hafa verið dæmi um Simpson's Paradox í fréttum og á samfélagsmiðlum sem tengjast bóluefnum og COVID-dauða. Einn graf sýnir línurit sem ber saman dánartíðni milli bólusettra og óbólusettra fyrir fólk á aldrinum 10-59 ára. Myndin sýnir að óbólusettir hafa stöðugt lægri dánartíðni. Hvað er í gangi hér?  

Málið er svipað því sem við sjáum með battameðaltölum. Nefnari í þessu tilviki er fjöldi einstaklinga í hverjum aldurshópi. Línuritið sameinar hópa sem hafa mismunandi útkomu. Ef við lítum sérstaklega á eldri aldurshópinn, 50-59 ára, sjáum við að bólusettum vegnar betur. Sömuleiðis, ef við skoðum 10-49, sjáum við líka að bólusettu farnast betur. Það er þversagnakennt að þegar litið er á sameinaða settið virðast óbólusettir hafa verri útkomu. Á þennan hátt geturðu rökstutt andstæð rök með því að nota gögnin.

Gögnin eru hlutdræg

Ekki er alltaf hægt að treysta gögnum. Jafnvel í vísindasamfélaginu viðurkenndi meira en þriðjungur rannsókna sem tóku þátt í könnuninni "vafasamar rannsóknaraðferðir."  Annað rannsóknarsvikari segir: „Það er mjög líklega miklu meira svik í gögnum – töflum, línuritum, raðgreiningargögnum [– en við erum í raun að uppgötva]. Hver sem situr við eldhúsborðið sitt getur sett tölur í töflureikni og búið til línurit sem lítur sannfærandi út.“

Þetta fyrsta dæmi lítur út fyrir að einhver hafi gert það. Ég er ekki að segja að þetta sé svik, en sem könnun, það býr bara ekki til nein gögn sem stuðla að upplýstri ákvörðun. Það lítur út fyrir að könnunin hafi spurt svarendur um álit þeirra á kaffi á bensínstöðvum eða öðrum viðeigandi atburði. 

  1. Frábær 
  2. Great
  3. Mjög góð 

Ég hef klippt Twitter-færsluna til að fjarlægja tilvísanir í hinn seka, en þetta er raunverulegt heildarrit yfir lokaniðurstöður könnunarinnar. Svona kannanir eru ekki óalgengar. Augljóslega mun hvaða töflu sem er búið til úr gögnunum sem verða til úr svörunum sýna að ekki má missa af kaffinu sem um ræðir.  

Vandamálið er að ef þú hefðir fengið þessa könnun og fyndir ekki svar sem passaði við þína hugsun, myndirðu sleppa könnuninni. Þetta gæti verið öfgafullt dæmi um hvernig hægt er að búa til ótraust gögn. Léleg hönnun könnunar getur hins vegar leitt til færri svara og þeir sem svara hafa aðeins eina skoðun, það er bara spurning um stig. Gögnin eru hlutdræg.

Þetta annað dæmi um hlutdrægni gagna er úr skrám „Verstu COVID 19 villandi línurit. " 

Aftur, þetta er lúmskt og ekki alveg augljóst. Súluritið sýnir slétta - næstum of slétta - lækkun á hlutfalli jákvæðra COVID-19 tilfella með tímanum fyrir sýslu í Flórída. Þú gætir auðveldlega dregið þá ályktun að málum fari fækkandi. Það er frábært, sjónmyndin sýnir gögnin nákvæmlega. Vandamálið er í gögnunum. Svo, það er lævísari hlutdrægni vegna þess að þú getur ekki séð það. Það er bakað inn í gögnin. Spurningarnar sem þú þarft að spyrja, innihalda, hver er verið að prófa? Með öðrum orðum, hver er nefnarinn, eða þýðið sem við erum að horfa á hlutfall af. Gert er ráð fyrir að það sé allt þýðið, eða að minnsta kosti dæmigert úrtak.

Hins vegar, á þessu tímabili, í þessari sýslu, voru próf aðeins gefin fyrir takmarkaðan fjölda fólks. Þeir þurftu að vera með COVID-lík einkenni, eða höfðu ferðast nýlega til lands á listanum yfir heita staði. Að auki truflar niðurstöðurnar sú staðreynd að hvert jákvætt próf var talið og hvert neikvætt próf var talið. Venjulega, þegar einstaklingur prófaði jákvætt, myndi hann prófa aftur þegar vírusinn var kominn í gang og prófaði neikvætt. Svo, í vissum skilningi, fyrir hvert jákvætt tilfelli er neikvætt próftilvik sem dregur það út. Langflest próf eru neikvæð og voru neikvæð próf hvers og eins talin. Þú getur séð hvernig gögnin eru hlutdræg og ekki sérstaklega gagnleg til að taka ákvarðanir. 

AI inntak og þjálfun er hlutdræg

Það eru að minnsta kosti tvær leiðir þar sem gervigreind getur leitt til hlutdrægra niðurstaðna: að byrja á hlutdrægum gögnum eða nota hlutdræg reiknirit til að vinna úr gildum gögnum.  

Hlutdrægt inntak

Mörg okkar eru á tilfinningunni að hægt sé að treysta gervigreind til að rýra tölurnar, beita reikniritum þess og spýta út áreiðanlegri greiningu á gögnunum. Gervigreind getur aðeins verið eins klár og hún er þjálfuð. Ef gögnin sem það er þjálfað á eru ófullkomin er heldur ekki hægt að treysta niðurstöðum eða niðurstöðum. Svipað og hér að ofan um hlutdrægni í könnunum, þá eru ýmsar leiðir til að gögn geta verið hlutdræg í vélanámi:.  

  • Hlutdrægni í sýni – þjálfunargagnagrunnurinn er ekki dæmigerður fyrir allt þýðið.
  • Útilokunarhlutdrægni - stundum er það sem virðist vera frávik í raun gilt, eða þar sem við drögum línuna um hvað á að hafa með (póstnúmer, dagsetningar osfrv.).
  • Mælingarskekkju – venjan er að mæla alltaf frá miðju og botni meniscus, til dæmis þegar vökvi er mældur í mæliflöskum eða tilraunaglösum (nema kvikasilfur.)
  • Muna hlutdrægni – þegar rannsóknir eru háðar minni þátttakenda.
  • Hlutdrægni áhorfenda - vísindamenn, eins og allir menn, hafa meiri tilhneigingu til að sjá það sem þeir búast við að sjá.
  • Kynþáttafordómar og kynþáttafordómar - kyn eða kynþáttur getur verið of- eða undirfulltrúa.  
  • Samtaka hlutdrægni – gögnin styrkja staðalmyndir

Til að gervigreind skili áreiðanlegum niðurstöðum þurfa þjálfunargögn þess að tákna raunverulegan heim. Eins og við höfum fjallað um í fyrri blogggrein er undirbúningur gagna mikilvægur og eins og öll önnur gagnaverkefni. Óáreiðanleg gögn geta kennt vélanámskerfum ranga lexíu og leiða til rangrar niðurstöðu. Sem sagt, „Öll gögn eru hlutdræg. Þetta er ekki ofsóknaræði. Þetta er staðreynd." – Dr. Sanjiv M. Narayan, Stanford University School of Medicine.

Notkun hlutdrægra gagna til þjálfunar hefur leitt til fjölda athyglisverðra gervigreindarbilana. (Dæmi hér og hér, rannsóknir hér..)

Hlutdræg reiknirit

Reiknirit er sett af reglum sem samþykkja inntak og búa til úttak til að svara viðskiptavanda. Þau eru oft vel skilgreind ákvörðunartré. Reiknirit líða eins og svartir kassar. Enginn er viss um hvernig þeir virka, oft, ekki einu sinni fyrirtæki sem nota þau. Ó, og þau eru oft einkarekin. Dularfullt og flókið eðli þeirra er ein af ástæðunum fyrir því að hlutdræg reiknirit eru svo skaðleg. . 

Íhugaðu AI reiknirit í læknisfræði, HR eða fjármálum sem tekur tillit til kynþáttar. Ef kynþáttur er þáttur getur reikniritið ekki verið kynþáttablindur. Þetta er ekki fræðilegt. Vandamál sem þessi hafa verið uppgötvað í hinum raunverulega heimi með því að nota gervigreind í ráða, far-hluti, lán umsókns, og nýrnaígræðslur

Niðurstaðan er sú að ef gögnin þín eða reiknirit eru slæm, eru verri en gagnslaus, geta þau verið hættuleg. Það er til eitthvað sem heitir „reiknirit endurskoðun.” Markmiðið er að hjálpa fyrirtækjum að bera kennsl á hugsanlega áhættu sem tengist reikniritinu þar sem það tengist sanngirni, hlutdrægni og mismunun. Annars staðar, Facebook er að nota gervigreind til að berjast gegn hlutdrægni í gervigreind.

Fólk er hlutdrægt

Við erum með fólk beggja vegna jöfnunnar. Fólk er að undirbúa greininguna og fólk er að fá upplýsingarnar. Það eru rannsakendur og það eru lesendur. Í hvaða samskiptum sem er geta verið vandamál í sendingu eða móttöku.

Tökum til dæmis veðrið. Hvað þýðir „líkur á rigningu“? Í fyrsta lagi, hvað meina veðurfræðingar þegar þeir segja að líkur séu á rigningu? Samkvæmt bandarískum stjórnvöldum National Weather Service, líkur á rigningu, eða það sem þeir kalla Probability of Precipitation (PoP), er einn af minnst skiljanlegum þáttum í veðurspá. Það hefur staðlaða skilgreiningu: „Líkur á úrkomu eru einfaldlega tölfræðilegar líkur á 0.01 tommu [sic] af [sic] meiri úrkomu á tilteknu svæði á gefnu spásvæði á tilgreindu tímabili. „Tilgreint svæði“ er spásvæðið, eða broadsteypt svæði. Það þýðir að opinberar líkur á úrkomu ráðast af því að treysta því að það muni rigna einhvers staðar á svæðinu og prósentu svæðisins sem verður blautt. Með öðrum orðum, ef veðurfræðingur er viss um að það muni rigna á spásvæðinu (Confidence = 100%), þá táknar PoP þann hluta svæðisins sem mun fá rigningu.  

Parísarstræti; Rigningardagur,Gustave Caillebotte (1848-1894) Chicago Art Institute Public Domain

Líkurnar á rigningu eru háðar bæði sjálfstraust og svæði. Ég vissi það ekki. Mig grunar að annað fólk viti það ekki heldur. Um 75% íbúanna skilja ekki nákvæmlega hvernig PoP er reiknað út eða hvað það á að tákna. Svo er verið að blekkja okkur, eða er þetta skynjunarvandamál. Köllum það úrkomuskynjun. Eigum við veðurspámann að kenna? Til að vera sanngjarn, þá er nokkur rugl meðal veðurspámanna líka. Í einu könnun, 43% veðurfræðinga í könnuninni sögðu að það væri mjög lítið samræmi í skilgreiningu á PoP.

Greiningin sjálf er hlutdræg

Af fimm áhrifaþáttum gæti greiningin sjálf komið mest á óvart. Í vísindarannsóknum sem leiða til þess að endurskoðuð grein er birt, er venjulega sett fram tilgáta um kenningu, skilgreindar aðferðir til að prófa tilgátuna, gögnum er safnað og síðan eru gögnin greind. Hvers konar greining er gerð og hvernig hún er gerð er vanmetin í því hvernig hún hefur áhrif á niðurstöðurnar. Í pappír birt fyrr á þessu ári (janúar 2022), í International Journal of Cancer, mátu höfundarnir hvort niðurstöður slembiraðaðra samanburðarrannsókna og afturskyggnra athugunarrannsókna. Niðurstöður þeirra komust að þeirri niðurstöðu að,

Með því að breyta vali á greiningum í samanburðarrannsóknum á skilvirkni fengum við gagnstæðar niðurstöður. Niðurstöður okkar benda til þess að sumar afturskyggnar athugunarrannsóknir gætu komist að því að meðferð bæti árangur sjúklinga, á meðan önnur svipuð rannsókn gæti fundið það ekki, einfaldlega byggð á greiningarvali.

Í fortíðinni, þegar þú lest grein í vísindatímariti, ef þú ert eins og ég, gætir þú haldið að niðurstöður eða ályktanir snúist eingöngu um gögnin. Nú virðist sem niðurstöðurnar, eða hvort upphafstilgátan sé staðfest eða hrakin, geti einnig verið háð greiningaraðferðinni.

Annað Nám fann svipaðar niðurstöður. Greinin, Margir sérfræðingar, eitt gagnasett: Að gera gagnsætt hvernig tilbrigði í greiningarvali hafa áhrif á niðurstöður, lýsir því hvernig þeir gáfu sama gagnasettinu til 29 mismunandi teyma til að greina. Oft er litið á gagnagreiningu sem strangt, vel skilgreint ferli sem leiðir til einnar niðurstöðu.  

Þrátt fyrir mótmæli aðferðafræðinga er auðvelt að horfa framhjá þeirri staðreynd að niðurstöður geta verið háðar valinni greiningarstefnu, sem sjálf er gegnsýrð af kenningum, forsendum og valpunktum. Í mörgum tilfellum eru margar skynsamlegar (og margar óraunhæfar) aðferðir við mat á gögnum sem varða rannsóknarspurningu.

Rannsakendur komust að greiningunni á gögnunum og komust að þeirri niðurstöðu að allar rannsóknir innifela huglægar ákvarðanir - þar á meðal hvers konar greiningu á að nota - sem getur haft áhrif á endanlega niðurstöðu rannsóknarinnar.

Tilmæli annars rannsóknir sem greindi ofangreinda rannsókn á að vera varkár þegar hann notar eina grein við ákvarðanir eða ályktanir.

Að taka á hlutdrægni í greiningu

Þetta er einfaldlega ætlað að vera varúðarsaga. Þekking getur verndað okkur frá því að vera tekin af svindli. Því meðvitaðri um mögulegar aðferðir sem skanni gæti notað til að blekkja okkur, því minni líkur eru á að við tökumst á, til dæmis, með rangri stefnu vasaþjófs eða hnökralausu tali um Ponzi-leikrit. Svo er það með að skilja og viðurkenna hugsanlega hlutdrægni sem hefur áhrif á greiningar okkar. Ef við erum meðvituð um hugsanleg áhrif gætum við kannski kynnt söguna betur og að lokum tekið betri ákvarðanir.