Analitika Gezurra

by Abu 31, 2022BI/Analitika0 iruzkinak

Analitika Gezurra

Analisiaren alborapena

 

Mark Twain-ek eztabaidan esan zuen: "Hiru gezur mota daude: gezurrak, gezur madarikatuak eta analytics". 

Uste dugu analitikak informazio baliagarriak eta ekingarriak ematen dizkigula. Askotan konturatzen ez garena da gure alborapenek eta besteenek nola eragiten duten software eta sistema sofistikatuenek ematen dizkiguten erantzunetan. Batzuetan, petrala manipulatuak izan gaitezke, baina, normalean, gure analitiketan sartzen diren alborapen sotil eta inkontzienteak izan daitezke. Analitika alboratuaren atzean dagoen motibazioa anitza da. Batzuetan, zientziarengandik espero ditugun emaitza inpartzialak 1) datuak aurkezteko moduko aukera sotilek eragiten dute, 2) datu inkoherenteak edo adierazgarriak ez direnak, 3) AI sistemak nola entrenatzen diren, 4) ikertzaileen edo saiatzen ari diren beste batzuen ezjakintasunak, gaitasun ezak. istorioa kontatzeko, 5) analisia bera.    

Aurkezpena alboragarria da

Gezur batzuk beste batzuk baino errazagoak dira antzematen. Zer bilatu behar duzun dakizunean errazago detekta dezakezu potentzialki grafiko eta taula engainagarriak. 

Badira gutxienez datuak engainagarrian erakusteko bost modu: 1) Datu multzo mugatu bat erakutsi, 2). Erakutsi zerikusirik ez duten korrelazioak, 3) Erakutsi datuak zehazgabe, 4) Erakutsi datuak modu ez-ohikoan edo 5). Erakutsi datuak gehiegi sinplifikatuta.

Erakutsi datu multzo mugatu bat

Datuak mugatzeak edo datuen ez-ausazko atal bat eskuz hautatzeak sarritan irudi handiarekin koherentea ez den istorio bat kontatu dezake. Laginketa txarra edo gerezi-bilketa, analistak lagin ez-ordezkari bat erabiltzen duenean talde handiago bat irudikatzeko. 

Martxoaren 2020 ere, Georgiako Osasun Publikoko Departamentua grafiko hau bere eguneroko egoera txostenaren barruan argitaratu zuen. Egia esan, galdera gehiago sortzen ditu erantzuten duena baino.  

Falta den gauzetako bat testuingurua da. Esaterako, lagungarria litzateke jakitea zein den biztanleriaren ehunekoa adin-talde bakoitzeko. Itxura soileko diagramaren beste arazo bat adin-talde irregularrak dira. 0-17ek 18 urte ditu, 18-59ek 42, 60+ek muga irekia du, baina 40 urte inguru ditu. Ondorioa, grafiko hau bakarrik ikusita, kasu gehienak 18-59 urte bitartekoen multzoan daudela da. 60 urtetik gorako adin-taldeak COVID-en kasuak larriki kaltetu dituela dirudi. Baina hau ez da istorio osoa.

Konparazio baterako, datu multzo ezberdin hau CDC webgunea COVID-en kasuak adin-taldeen arabera taularatzen ditu adin tarte bakoitzean dagoen AEBetako Biztanleriaren ehunekoari buruzko datu gehigarriekin.  

Hau hobea da. Testuinguru gehiago dugu. Ikus dezakegu 18-29, 30-39, 40-49 urte bitarteko adin-taldeek adin-taldeek biztanleriaren ehunekoa baino kasu-portzentaje handiagoa dutela. Oraindik adin-talde desberdin batzuk daude. Zergatik da 16-17 urte bitarteko adin-talde bereizia? Oraindik hau ez da istorio osoa, baina adituek zutabeak idatzi dituzte, iragarpenak eta aginduak egin dituzte hau baino gutxiago. Jakina, COVID-ekin, kasu positibo gisa kontatzea eragiten duten adinaz gain, aldagai asko daude: txerto-egoera, proben erabilgarritasuna, probatutako aldiz kopurua, komorbiditateak eta beste hainbat. Kasu kopuruak, berez, irudi osatugabea ematen du. Aditu gehienek Heriotzen kopurua, edo 100,000 biztanleko heriotzen ehunekoak edo kasu-heriotzak aztertzen dituzte, COVID-ak adin-talde bakoitzari nola eragiten dion aztertzeko.

Erakutsi zerikusirik ez duten korrelazioak

Jakina, badago bat korrelazio sendoa AEBetako zientzian, espazioan eta teknologian egindako gastuaren eta urkatuz, itoz eta itoz egindako Suizidioen artean. Korrelazioa %99.79koa da, ia parekatze ezin hobea.  

Nork, ordea, esango luke hauek nolabait erlazionatuta daudela edo batek bestea eragiten duela? Badira beste adibide ez hain muturrekoak, baina ez hain faltsuak. Antzeko korrelazio handia dago Scripps National Spelling Bee-ren Letters in Winning Word-en eta Armiarma Pozoitsuek hildako pertsonen kopuruaren artean. Kasualitatea? Zuk erabaki.

Gutxiago engainagarria izan daitekeen datu hauek diagramatzeko beste modu bat zeroa Y ardatzetan sartzea litzateke.

Erakutsi datuak zehazgabe

aurrera Nola gaizki bistaratu datuak, AEBetako Georgiako Estatuak COVID-5 kasu baieztatu gehien dituzten 19 konderri nagusiak aurkeztu zituen.

Zilegia dirudi, ezta? Konfirmatutako COVID-19 kasuen beheranzko joera dagoela argi dago. Irakur dezakezu X ardatza? X ardatzak denbora adierazten du. Normalean, datak ezkerretik eskuinera handituko dira. Hemen, denbora-bidaia txiki bat ikusten dugu X ardatzean: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

Itxaron? Zer? X ardatza ez dago kronologikoki ordenatuta. Beraz, joera polita badirudi ere, ezin dugu ondoriorik atera. Datak ordenatuta badaude, kasu kopuruaren barrek zerra-hortz eredua erakusten dute edozein joera baino.

Hemen konponketa erraza datak egutegi batek egiten duen moduan ordenatzea da.

Erakutsi datuak modu ez-ohikoan

Denok lanpetuta gaude. Gure garunak gure munduan koherenteak izan diren hipotesietan oinarritutako epaiketa azkarrak egiten irakatsi digu. Esaterako, inoiz ikusi dudan grafiko bakoitzak x- eta y- ardatzak zeroan edo balio baxuenean elkartzen diren erakusten ditu. Taula honi labur-labur begiratuz, zer ondorio atera ditzakezu Floridaren eraginari buruz «Zaintu zure oinarrizko legea.”? Lotsa ematen dit aitortzeak, baina grafiko honek hasieran engainatu ninduen. Zure begia grafikoaren erdiko testura eta geziara erakartzen da. Behera gora dago grafiko honetan. Agian ez da gezurra izango - datuak ondo daude. Baina, engainatzeko xedea dela pentsatu behar dut. Oraindik ikusi ez baduzu, zeroa goiko aldean dago y ardatzean. Beraz, datuek behera egiten duten heinean, horrek heriotza gehiago esan nahi du. Taula honek erakusten du su-armak erabiliz hildakoen kopurua handitu 2005etik aurrera, joan den joerak adierazten du behera.

Erakutsi datuak gehiegi sinplifikatuta

Datuen gehiegizko sinplifikazioaren adibide bat ikus daiteke analistek Simpson-en paradoxa aprobetxatzen dutenean. Datu agregatuak azpimultzoetan bereizten direnean baino ondorio ezberdina erakusten dutenean gertatzen den fenomenoa da. Erraza da tranpa hori erortzea maila altuko ehuneko agregatuei begira. Simpson-en Paradoxaren lanean dagoen ilustrazio argienetako bat lotuta dago bateoen batez bestekoak.  

Hemen ikusten dugu Derek Jeterrek David Justice baino bateoen batez besteko orokorra handiagoa duela 1995 eta 1996 denboraldietan. Paradoxa gertatzen da konturatzen garenean Justiziak Jeter bateatu zuela bi urte horietan. Arretaz begiratuz gero, zentzuzkoa da Jeterrek 4an gutxi gorabehera 1996 aldiz bat-batean (izendatzailea) gehiago izan zituela 007an, 1996 batez besteko baxuagoan. Justiziak, berriz, 10 aldiz gutxi gorabehera bat-batean baino gehiago izan zuen. 003 batez bestekoa handiagoa 1995ean.

Aurkezpena zuzena dirudi, baina Simpsonen Paradoxak, nahita edo nahi gabe, ondorio okerrak ekarri ditu. Berriki, Simpsonen Paradoxaren adibideak egon dira albisteetan eta sare sozialetan txertoekin eta COVID-en hilkortasunarekin lotutakoak. Bat diagrama 10-59 urte bitarteko pertsonen artean txertoa hartu eta txertatu gabekoen arteko heriotza-tasak alderatzen dituen lerro grafiko bat erakusten du. Grafikoak erakusten du txertorik gabekoek etengabeko heriotza-tasa txikiagoa dutela. Zer gertatzen da hemen?  

Arazoa bateen batez bestekoekin ikusten dugunaren antzekoa da. Kasu honetan izendatzailea adin-talde bakoitzeko pertsona kopurua da. Grafikoak emaitza desberdinak dituzten taldeak konbinatzen ditu. Adinekoen taldeari, 50-59 urte bitartekoei, bereizita begiratzen badiogu, txertoak hobeto ateratzen direla ikusiko dugu. Era berean, 10-49ri erreparatzen badiogu, txertoa hartutakoari ere hobeto ikusten da. Paradoxikoki, multzo konbinatuari begira, txertorik gabekoek emaitza okerragoa dutela dirudi. Modu honetan, datuak erabiliz kontrako argumentuen kasua egiteko gai zara.

Datuak alboratuak dira

Datuak ezin dira beti fidatu. Komunitate zientifikoan ere, inkestatutako ikertzaileen heren batek onartu zuen "ikerketa praktika zalantzagarriak".  Another ikerketa iruzurrezko detektibea dio: "Litekeena da datuetan (taulak, lerro grafikoak, sekuentziazio datuak [– benetan aurkitzen ari garen baino iruzur gehiago egotea). Sukaldeko mahaian eserita dagoen edonork zenbaki batzuk jar ditzake kalkulu-orri batean eta sinesgarria dirudien lerro grafiko bat egin dezake".

Lehen hau Adibidez badirudi norbaitek hori egin zuela. Ez dut esaten hau iruzurra denik, baina inkesta gisa ez du sortzen erabaki informatuan laguntzen duen daturik. Badirudi inkestak inkestatuei galdetu ziela gasolindegiko kafeari buruz duten iritzia, edo beste gertaera garrantzitsuren bati buruz. 

  1. Superb 
  2. Great
  3. Oso ona 

Twitter-eko mezua moztu dut errudunaren erreferentziak kentzeko, baina hau da inkestaren azken emaitzen benetako taula osoa. Horrelako inkestak ez dira arraroak. Jakina, erantzunen ondoriozko datuetatik sortutako edozein taulak adieraziko du aipatutako kafea ez dela galdu behar.  

Arazoa da inkesta hau eman izan bazaizu eta zure pentsamenduarekin bat datorren erantzunik aurkitu ez bazenute, inkesta saltatuko zenuke. Datu fidagarriak sor daitezkeen muturreko adibidea izan daiteke hau. Inkestaren diseinu txarrak, ordea, erantzun gutxiago ekar ditzake eta erantzuten dutenek iritzi bakarra dute, gradu kontua besterik ez da. Datuak alboratuak dira.

Datu-alborapenaren bigarren adibide hau fitxategietakoa da.COVID 19ren grafiko engainagarririk okerrenak". 

Berriz ere, hori sotila da eta ez da guztiz agerikoa. Barra-grafikoak denboran zehar COVID-19 kasu positiboen ehunekoaren beherakada leuna (ia leunegia) erakusten du Floridako konderri batean. Erraz atera liteke kasuak gutxitzen ari direla ondorioa. Hori bikaina da, bistaratzeak zehaztasunez adierazten ditu datuak. Arazoa datuetan dago. Beraz, alborapen maltzurragoa da, ezin duzulako ikusi. Datuetan sartuta dago. Egin behar dituzun galderak, besteak beste, nor ari da probatzen? Beste era batera esanda, zein den izendatzailea, edo ehuneko bat aztertzen ari garen biztanleria. Suposizioa da populazio osoa dela, edo gutxienez, lagin adierazgarri bat.

Hala ere, epe horretan, eskualde honetan, probak pertsona kopuru mugatu bati baino ez zitzaizkion ematen. COVID-en antzeko sintomak izan behar zituzten, edo duela gutxi leku beroen zerrendako herrialde batera bidaiatu zuten. Gainera, emaitzak nahasten ditu proba positibo bakoitza zenbatu izana eta proba negatibo bakoitza zenbatu izana. Normalean, pertsona batek positiboa ematen zuenean, birusak bere ibilbidea egin zuenean berriro probatzen zuten eta negatiboa izango zen. Beraz, zentzu batean, kasu positibo bakoitzeko, proba-kasu negatibo bat dago bertan behera uzten duena. Proba gehienak negatiboak dira eta bakoitzaren proba negatiboak zenbatu ziren. Datuak nola alboratuak diren eta erabakiak hartzeko bereziki erabilgarriak ez diren ikus dezakezu. 

AI sarrera eta prestakuntza alboratuta dago

Gutxienez bi modu daude IAk emaitza alboratuak ekar ditzake: datu alboratuak hasita edo algoritmo alboratuak erabiltzea baliozko datuak prozesatzeko.  

Sarrera alboratua

Gutako askok uste dugu AI fidagarria izan daitekeela zenbakiak murrizteko, bere algoritmoak aplikatzeko eta datuen azterketa fidagarria egiteko. Adimen artifiziala trebatu bezain adimentsua izan daiteke. Prestatzen den datuak ezin hobeak badira, emaitzak edo ondorioak ere ezin izango dira fidatu. Inkestaren alborapenaren aurreko kasuaren antzera, datuak izan daitezkeen hainbat modu daude Batzuen ikaskuntza automatikoan:.  

  • Laginaren alborapena: prestakuntza-datu multzoa ez da biztanleria osoaren adierazgarria.
  • Bazterketa-alborapena - batzuetan, kanpo-kodeak diruditenak benetan balio dute, edo, non sartu behar den marra marrazten dugun (posta kodeak, datak, etab).
  • Neurketa-alborapena: konbentzioa beti meniskoaren erdialdetik eta behetik neurtzea da, adibidez, matraze bolumetrikoetan edo saiakuntza-hodietan likidoak neurtzean (merkurioa izan ezik).
  • Gogoratu alborapena – ikerketa parte-hartzaileen memoriaren araberakoa denean.
  • Behatzaileen alborapena - zientzialariek, gizaki guztiak bezala, joera handiagoa dute ikustea espero dutena ikusteko.
  • Alborapen sexista eta arrazista: sexua edo arraza ordezkatuta egon daiteke edo gutxietsita egotea.  
  • Elkarte-alborapena: datuek estereotipoak indartzen dituzte

AI-ak emaitza fidagarriak itzultzeko, bere prestakuntza-datuek mundu erreala irudikatu behar dute. Aurreko blogeko artikulu batean aipatu dugun bezala, datuak prestatzea funtsezkoa da eta beste edozein datu proiektu bezala. Fidagarriak ez diren datuek ikaskuntza automatikoko sistemei irakatsi diezaiekete ikasgai okerra eta ondorio okerrak aterako dituzte. Hori bai, «Datu guztiak alboratuak dira. Hau ez da paranoia. Hau egia da”. – Sanjiv M. Narayan doktorea, Stanford Unibertsitateko Medikuntza Eskola.

Prestakuntzarako datu alboratuak erabiltzeak AI akats nabarmen batzuk ekarri ditu. (Adibideak hemen hemen, ikerketa hemen..)

Algoritmo alboratuak

Algoritmo bat sarrera bat onartu eta irteera sortzen duen arau multzo bat da, negozio-arazo bati erantzuteko. Askotan ondo definitutako erabakien zuhaitzak dira. Algoritmoak kutxa beltzak bezala sentitzen dira. Inork ez daki nola funtzionatzen duten, askotan, ezta ere erabiltzen dituzten enpresak. Oh, eta askotan jabeak dira. Haien izaera misteriotsu eta konplexua da algoritmo alboratuak hain maltzurrak izatearen arrazoietako bat. . 

Demagun lasterketa kontuan hartzen duten AI algoritmoak medikuntza, HR edo finantzak. Arraza faktore bat bada, algoritmoa ezin da arraza-itsua izan. Hau ez da teorikoa. Horrelako arazoak mundu errealean aurkitu dira AI erabiliz kontratatzeko, bidaia-partekatzea, mailegu eskaeras, eta giltzurrunetako transplanteak

Ondorioa da zure datuak edo algoritmoak txarrak badira, alferrikakoak baino okerragoak badira, arriskutsuak izan daitezkeela. Badago "auditoria algoritmikoa”. Helburua erakundeei laguntzea da algoritmoarekin erlazionatutako arrisku potentzialak identifikatzen laguntzea, zuzentasunarekin, alborapenarekin eta diskriminazioarekin erlazionatuta. Beste nonbait, Facebook AI erabiltzen ari da AIaren alborapenei aurre egiteko.

Jendea alboratuta dago

Ekuazioaren bi aldeetan jendea dugu. Jendea analisia prestatzen ari da eta jendea informazioa jasotzen ari da. Ikertzaileak daude eta irakurleak daude. Edozein komunikaziotan, transmisioan edo harreran arazoak egon daitezke.

Hartu eguraldia, adibidez. Zer esan nahi du "euri aukerak"? Lehenik eta behin, zer esan nahi dute meteorologoek euria egiteko aukera dagoela esaten dutenean? AEBetako gobernuaren arabera National Weather Service, euria egiteko aukera, edo prezipitazio probabilitatea (PoP) deitzen dutena, eguraldi iragarpen batean gutxien ulertzen den elementuetako bat da. Definizio estandar bat du: "Prezipitazioaren probabilitatea 0.01" hazbeteko [sic] prezipitazio gehiagoren probabilitate estatistikoa besterik ez da, zehaztutako denbora-tartean eremu jakin batean prezipitazio gehiago". "Emandako eremua" aurreikuspeneko eremua da, edo broadbota eremua. Horrek esan nahi du Prezipitazioaren Probabilitate ofiziala inguruko nonbait euria egingo duen konfiantzaren eta bustituko den eremuaren ehunekoaren araberakoa dela. Beste era batera esanda, meteorologoak iragarpen eremuan euria egingo duela ziur bada (Konfiantza = % 100), orduan PoP-ak euria jasoko duen eremuaren zatia adierazten du.  

Paris kalea; Egun euritsua,Gustave Caillebotte (1848-1894) Chicago Art Institute Public Domain

Euria egiteko aukera konfiantzaren eta eremuaren araberakoa da. Ez nekien hori. Besteek ere hori ez dakitela susmoa dut. Biztanleriaren % 75 inguruk ez du zehatz-mehatz ulertzen PoP nola kalkulatzen den, edo zer irudikatu nahi duen. Beraz, engainatzen ari gara, edo, hau pertzepzio arazo bat da. Dei diezaiogun prezipitazioen pertzepzioa. Eguraldi iragarleari leporatzen diogu? Bidezkoa izateko, badaude batzuk nahasmena eguraldi iragarleen artean ere. Batean inkesta, inkestatutako meteorologoen % 43k esan zuen oso koherentzia gutxi dagoela PoPren definizioan.

Analisia bera alboratuta dago

Eragin duten bost faktoreetatik, analisia bera izan daiteke harrigarriena. Berrikusitako paper bat argitaratzen duten ikerketa zientifikoetan, normalean teoria bat hipotesia egiten da, hipotesia probatzeko metodoak definitzen dira, datuak biltzen dira, eta gero datuak aztertzen dira. Egiten den analisi mota eta nola egiten den gutxietsi egiten da ondorioetan nola eragiten duen. Batean paper Urte hasieran (2022ko urtarrila) argitaratua, International Journal of Cancer aldizkarian, egileek ausazko kontrolatutako saiakuntzen eta atzera begirako behaketa-ikerketen emaitzak ebaluatu zituzten. Haien aurkikuntzak ondorioztatu zuten,

Eraginkortasun konparatiboaren ikerketan aukera analitikoak aldatuz, kontrako emaitzak sortu genituen. Gure emaitzek iradokitzen dute atzera begirako behaketa-ikerketek tratamendu batek pazienteentzako emaitzak hobetzen dituela aurki dezakeela, eta antzeko beste ikerketa batek, aldiz, ez duela aurkitu, aukera analitikoetan oinarrituta.

Iraganean, aldizkari zientifikoko artikulu bat irakurtzean, ni bezalakoa bazara, baliteke emaitzak edo ondorioak datuei buruzkoak direla pentsatu izana. Orain, badirudi emaitzak, edo hasierako hipotesia baieztatzen edo ezeztatzen den, analisi metodoaren araberakoa izan daitekeela ere.

Another aztertzeko antzeko emaitzak aurkitu zituen. artikulua, Analista asko, datu multzo bat: aukera analitikoen aldaketek emaitzetan nola eragiten duten gardena egitea, deskribatzen du nola eman zieten datu multzo bera 29 talde ezberdinei azter zezaten. Datuen analisia prozesu zorrotz eta ondo definitu gisa ikusten da, ondorio bakar batera eramaten duena.  

Metodologoen erreklamazioak gorabehera, erraza da emaitzak aukeratutako estrategia analitikoaren araberakoak izan daitezkeela, zeina teoriaz, hipotesiez eta aukera-puntuez beteta baitago. Kasu askotan, arrazoizko (eta zentzugabeko) planteamendu asko daude ikerketa-galdera bati lotutako datuak ebaluatzeko.

Ikertzaileek datuen analisia bildu zuten eta ondorioztatu zuten ikerketa guztiek erabaki subjektiboak barne hartzen dituztela - zein analisi mota erabili barne - ikerketaren azken emaitzan eragina izan dezaketenak.

Beste baten gomendioa ikertzailea goiko azterketa aztertu duenak kontuz ibiltzea da paper bakarra erabiltzean erabakiak hartzeko edo ondorioak ateratzeko.

Alborapenari aurre egitea Analytics-en

Hau abisu-istorio bat izan nahi du. Ezagutzak babestu gaitzake iruzurrak harrapatzeko. Eskaner batek gu engainatzeko erabil ditzakeen metodoak zenbat eta kontzienteago ezagutu, orduan eta aukera gutxiago izango gaituzte, esate baterako, kartazale baten okerrak edo Ponzi-ren antzezlan baten hitz egiteak. Beraz, gure analitikari eragiten dioten alborapen potentzialak ulertzea eta aitortzea da. Balizko eraginez jabetzen bagara, baliteke istorioa hobeto aurkeztea eta, azken finean, erabaki hobeak hartzea.  

BI/AnalitikaUncategorized
Argitu zure ikuspegiak: Analytics udaberriko garbiketarako gida

Argitu zure ikuspegiak: Analytics udaberriko garbiketarako gida

Argitu zure ikuspegiak Analytics Udaberriko garbiketari buruzko gida Urte berria kolpe batekin hasten da; urte amaierako txostenak sortzen eta aztertzen dira, eta, ondoren, denek lan egutegi koherente batean ezartzen dute. Egunak luzeagoak eta zuhaitzak eta loreak loratzen diren heinean,...

Irakurri gehiago