Analytics Mensogo

by Aug 31, 2022BI/Analitiko0 komentoj

Analytics Mensogo

La Biaso de Analizo

 

Mark Twain diskuteble diris ion kiel: "Estas tri specoj de mensogoj: mensogoj, malbenitaj mensogoj kaj analytics. " 

Ni prenas por koncedite, ke analizo donas al ni utilajn, ageblajn komprenojn. Kion ni ofte ne rimarkas, estas kiel niaj propraj antaŭjuĝoj kaj tiuj de aliaj influas la respondojn, kiujn ni donas eĉ la plej altnivelaj programoj kaj sistemoj. Foje, ni povas esti manipulitaj malhoneste, sed, pli ofte, ĝi povas esti subtilaj kaj senkonsciaj antaŭjuĝoj kiuj ŝteliras en nian analizon. La instigo malantaŭ partia analizo estas multobla. Foje la senpartiaj rezultoj, kiujn ni atendas de la scienco, estas influitaj de 1) subtilaj elektoj pri kiel la datumoj estas prezentitaj, 2) malkonsekvencaj aŭ ne-reprezentaj datumoj, 3) kiel AI-sistemoj estas trejnitaj, 4) la nescio, nekompetenteco de esploristoj aŭ aliaj provas. rakonti la historion, 5) la analizon mem.    

La Prezento estas Partia

Iuj el la mensogoj estas pli facile ekvideblaj ol aliaj. Kiam vi scias kion serĉi, vi eble pli facile detektos misgvidaj grafikaĵoj kaj diagramoj. 

Estas almenaŭ kvin manieroj erare montri datumojn: 1) Montru limigitan datuman aron, 2). Montru nerilatajn korelaciojn, 3) Montri datumojn malprecize, 4) Montri datumojn nekonvencie, aŭ 5). Montru datumojn tro simpligitaj.

Montru limigitan datuman aron

Limigi la datumojn aŭ elekti ne-hazardan sekcion de la datumoj ofte povas rakonti historion, kiu ne kongruas kun la granda bildo. Malbona specimenigo, aŭ ĉerizplukado, estas kiam la analizisto uzas ne-reprezentan provaĵon por reprezenti pli grandan grupon. 

En marto 2020, Sekcio de Publika Sano de Kartvelio publikigis ĉi tiun diagramon kiel parto de ĝia ĉiutaga statusraporto. Ĝi efektive levas pli da demandoj ol ĝi respondas.  

Unu el la aferoj, kiuj mankas, estas kunteksto. Ekzemple, estus utile scii, kia estas la procento de la loĝantaro por ĉiu aĝoklaso. Alia problemo kun la simplaspekta kuktabulo estas la neegalaj aĝgrupoj. La 0-17 havas 18 jarojn, 18-59 havas 42, 60+ estas malfermitaj, sed havas ĉirkaŭ 40 jarojn. La konkludo, nur konsiderante ĉi tiun diagramon, estas ke la plimulto de kazoj estas en la 18-59-jaraĝa grupo. La 60+-jaraĝa grupo ŝajnas esti malpli grave trafita de COVID-kazoj. Sed ĉi tio ne estas la tuta historio.

Por komparo, ĉi tiu malsama datumo aro sur la Retejo de CDC bildigas COVID-kazojn laŭ aĝogrupo kun la pliaj datumoj pri la procento de usona loĝantaro kiu estas en ĉiu aĝoklaso.  

Ĉi tio estas pli bona. Ni havas pli da kunteksto. Ni povas vidi ke aĝogrupoj 18-29, 30-39, 40-49 ĉiuj havas pli altan procenton de kazoj ol la procento de la aĝoklaso en la populacio. Estas ankoraŭ kelkaj neegalaj aĝgrupoj. Kial 16-17 estas aparta aĝogrupo? Tamen ĉi tio ne estas la tuta historio, sed ekspertoj skribis kolumnojn, faris antaŭdirojn kaj ordonojn pri malpli ol ĉi tio. Evidente, kun COVID, estas multaj variabloj krom aĝo, kiuj influas esti kalkulita kiel pozitiva kazo: vakcina statuso, havebleco de testoj, nombro da testitaj fojoj, komorbidoj kaj multaj aliaj. Nombro de kazoj mem provizas nekompletan bildon. Plej multaj fakuloj ankaŭ rigardas Nombron da mortoj, aŭ procentojn de mortoj per 100,000 loĝantoj, aŭ kaz-mortiĝojn por rigardi kiel COVID influas ĉiun aĝgrupon.

Montru senrilatajn korelaciojn

Evidente, ekzistas a forta korelacio inter usona elspezo por scienco, spaco kaj teknologio kaj la nombro da Memmortigoj per pendado, strangolado kaj sufokado. La Korelacio estas 99.79%, preskaŭ perfekta kongruo.  

Kiu tamen farus la kazon, ke ĉi tiuj iel rilatas, aŭ unu kaŭzas la alian? Estas aliaj malpli ekstremaj ekzemploj, sed ne malpli falsaj. Estas simila forta korelacio inter Letters in Winning Word of Scripps National Spelling Bee kaj Nombro de Homoj Mortigitaj de Venenaj Araneoj. Koincido? Vi decidas.

Alia maniero por mapi ĉi tiujn datumojn, kiuj povas esti malpli misgvidaj, estus inkluzivi nulon sur ambaŭ Y-aksoj.

Montru datumojn malprecize

de Kiel Malbone Montri Datumojn, la Usona Ŝtato de Kartvelio prezentis la Suprajn 5 Guberniojn kun la Plej Granda Nombro de Konfirmitaj COVID-19-Kazoj.

Aspektas legitime, ĉu ne? Estas klare malsupreniĝa tendenco de konfirmitaj COVID-19-kazoj. Ĉu vi povas legi la X-akson? La X-akso reprezentas tempon. Tipe, datoj pliiĝos de maldekstre dekstren. Ĉi tie, ni vidas iom da tempovojaĝado sur la X-akso: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

Atendu? Kio? La X-akso ne estas ordigita kronologie. Do, kiel ajn bela aspektus la tendenco, ni ne povas eltiri konkludojn. Se la datoj estas ordigitaj, la stangoj por la nombro da kazoj montras pli da segildenta ŝablono ol ia ajn tendenco.

La facila solvo ĉi tie estas ordigi la datojn kiel kalendaro faras.

Montru datumojn nekonvencie

Ni ĉiuj estas okupataj. Niaj cerboj instruis nin fari rapidajn juĝojn bazitajn sur supozoj, kiuj estis konsekvencaj en nia mondo. Ekzemple, ĉiu grafikaĵo, kiun mi iam vidis, montras la x- kaj y-aksojn renkontantajn ĉe nulo, aŭ plej malaltaj valoroj. Rigardante ĉi tiun diagramon mallonge, kiajn konkludojn vi povas tiri pri la efiko de Florido “Restenu vian bazan leĝon.”? Mi hontas konfesi ĝin, sed ĉi tiu grafikaĵo komence trompis min. Via okulo estas oportune tirita al la teksto kaj sago en la mezo de la grafikaĵo. Malsupre estas supre en ĉi tiu grafiko. Eble ne estas mensogo - la datumoj estas tute bone tie. Sed, mi devas pensi, ke ĝi celas trompi. Se vi ankoraŭ ne vidis ĝin, nulo sur la y-akso estas ĉe la supro. Do, ĉar datumoj tendencas malsupren, tio signifas pli da mortoj. Ĉi tiu diagramo montras, ke la nombro da murdoj uzante pafilojn pliigis post 2005, indikita per la tendenco iranta malsupren.

Montru la datumojn tro simpligitaj

Unu ekzemplo de tro-simpligo de la datenoj povas esti vidita kiam analizistoj ekspluatas la Paradokson de Simpson. Ĉi tio estas fenomeno kiu okazas kiam agregitaj datumoj ŝajnas montri malsaman konkludon ol kiam ĝi estas apartigita en subarojn. Ĉi tiu kaptilo estas facile fali, kiam oni rigardas altnivelajn kunigitajn procentojn. Unu el la plej klaraj ilustraĵoj de la Paradokso de Simpson ĉe la laboro rilatas al batilmezumoj.  

Ĉi tie ni vidas, ke Derek Jeter havas pli altan totalan batiladmezumon ol David Justice por 1995 kaj 1996 sezonoj. La paradokso venas kiam ni ekkomprenas ke Justeco venkis Jeter en batiladmezumo ambaŭ de tiuj jaroj. Se vi zorge rigardas, ĝi havas sencon kiam vi rimarkas, ke Jeter havis proksimume 4x pli da batvicoj (la denominatoro) en 1996 je .007 pli malalta mezumo en 1996. Dum, Justeco havis proksimume 10x la nombron da batvicoj ĉe nur . 003 pli alta mezumo en 1995.

La prezento prezentiĝas simpla, sed Simpson's Paradox, intence, aŭ senscie, kondukis al malĝustaj konkludoj. Lastatempe, estis ekzemploj de la Paradokso de Simpson en la novaĵoj kaj en sociaj amaskomunikiloj rilataj al vakcinoj kaj COVID-morteco. Unu diagramo montras liniografeon komparantan mortoprocentojn inter vakcinitaj kaj nevakcinitaj por homoj en aĝo de 10-59 jaroj. La diagramo pruvas, ke la nevakcinitaj konstante havas pli malaltan mortoprocenton. Kio okazas ĉi tie?  

La afero estas simila al tiu, kiun ni vidas kun batado-mezumoj. La denominatoro en ĉi tiu kazo estas la nombro da individuoj en ĉiu aĝoklaso. La grafeo kombinas grupojn kiuj havas malsamajn rezultojn. Se ni rigardas la pli maljunan aĝgrupon, 50-59, aparte, ni vidas ke la vakcinitaj fartas pli bone. Same, se ni rigardas 10-49, ni ankaŭ vidas, ke la vakcinitaj fariĝas pli bone. Paradokse, rigardante la kombinitan aron, nevakcinitaj ŝajnas havi pli malbonan rezulton. Tiamaniere, vi povas fari kazon por kontraŭaj argumentoj uzante la datumojn.

La Datumoj estas Partiaj

Datumoj ne ĉiam estas fidindaj. Eĉ en la scienca komunumo, pli ol triono de esploristoj enketitaj konfesis "dubindaj esplorpraktikoj."  alia esplordetektivo pri fraŭdo diras, "Estas tre verŝajne multe pli da fraŭdo en datumoj - tabeloj, liniaj grafikaĵoj, sekvencaj datumoj [– ol ni fakte malkovras]. Ĉiu, kiu sidas ĉe sia kuireja tablo, povas meti kelkajn ciferojn en kalkultabelon kaj fari liniografeon kiu aspektas konvinka."

Ĉi tiu unua ekzemple ŝajnas, ke iu faris ĝuste tion. Mi ne diras, ke ĉi tio estas fraŭdo, sed kiel enketo, ĝi simple ne generas datumojn, kiuj kontribuas al informita decido. Ŝajnas, ke la enketo demandis respondantojn pri ilia opinio pri benzinstaciokafo, aŭ iu alia grava aktuala evento. 

  1. Superba 
  2. granda
  3. Tre bona 

Mi tranĉis la Tviteran afiŝon por forigi referencojn al la kulpa partio, sed ĉi tio estas la reala tuta diagramo de finrezultoj de la enketo. Tiaj enketoj ne estas maloftaj. Evidente, ajna diagramo kreita de la datumoj rezultantaj de la respondoj montros, ke la koncerna kafo ne estas maltrafita.  

La problemo estas, ke se vi estus donita ĉi tiun enketon kaj ne trovus respondon kongruan kun via pensado, vi preterlasus la enketon. Ĉi tio povas esti ekstrema ekzemplo de kiom nefidindaj datumoj povas esti kreitaj. Malbona enketa dezajno, tamen, povas konduki al malpli da respondoj kaj tiuj, kiuj respondas, havas nur unu opinion, ĝi estas nur demando pri grado. La datumoj estas partiaj.

Ĉi tiu dua ekzemplo de datuma biaso estas el la dosieroj de "Plej malbonaj misgvidaj grafikoj de COVID 19. " 

Denove, ĉi tio estas subtila kaj ne tute evidenta. La bargrafiko montras glatan - preskaŭ tro glatan - malkreskon de la procento de pozitivaj COVID-19-kazoj laŭlonge de la tempo por gubernio en Florido. Vi facile povus tiri la konkludon, ke kazoj malpliiĝas. Tio estas bonega, la bildigo precize reprezentas la datumojn. La problemo estas en la datumoj. Do, ĝi estas pli insida antaŭjuĝo ĉar vi ne povas vidi ĝin. Ĝi estas bakita en la datumoj. La demandoj, kiujn vi devas demandi, inkluzivas, kiu estas testata? Alivorte, kio estas la denominatoro, aŭ la loĝantaro de kiu ni rigardas procenton. La supozo estas ke ĝi estas la tuta populacio, aŭ almenaŭ, reprezenta specimeno.

Tamen, dum ĉi tiu periodo, en ĉi tiu distrikto, testoj estis donitaj nur al limigita nombro da homoj. Ili devis havi COVID-similajn simptomojn, aŭ vojaĝis lastatempe al lando en la listo de varmaj lokoj. Aldone konfuzanta la rezultojn estas la fakto ke ĉiu pozitiva testo estis nombrita kaj ĉiu negativa testo estis nombrita. Tipe, kiam individuo testis pozitivon, ili testus denove kiam la viruso kuris sian kurson kaj testus negativan. Do, iusence, por ĉiu pozitiva kazo, ekzistas negativa testkazo kiu nuligas ĝin. La vasta plimulto de testoj estas negativaj kaj la negativaj testoj de ĉiu individuo estis nombritaj. Vi povas vidi kiel la datumoj estas partiaj kaj ne precipe utilaj por fari decidojn. 

AI-Enigo kaj Trejnado estas Partiaj

Estas almenaŭ du manieroj en kiuj AI povas konduki al partiaj rezultoj: komencante kun partiaj datumoj, aŭ uzante partiajn algoritmojn por prilabori validajn datumojn.  

Partia Enigo

Multaj el ni havas la impreson, ke oni povas fidi al AI por kraki la nombrojn, apliki ĝiajn algoritmojn kaj elkraĉi fidindan analizon de la datumoj. Artefarita Inteligenteco povas esti nur same inteligenta kiel ĝi estas trejnita. Se la datumoj pri kiuj ĝi estas trejnita estas neperfektaj, la rezultoj aŭ konkludoj ankaŭ ne povos esti fidindaj. Simile al la supra kazo de enketbiaso, ekzistas kelkaj manieroj en kiuj datumoj povas esti parcial en maŝinlernado:.  

  • Specimena biaso - la trejna datumaro ne estas reprezenta de la tuta loĝantaro.
  • Ekskludbiaso - foje kio ŝajnas esti eksterordinaraj estas efektive validaj, aŭ, kie ni desegnas la linion pri kio inkludi (kodkodoj, datoj, ktp).
  • Mezura biaso - la konvencio estas ĉiam mezuri de la centro kaj fundo de la menisko, ekzemple, dum mezurado de likvaĵoj en volumetraj flakonoj aŭ provtuboj (krom hidrargo).
  • Memorbiaso - kiam esplorado dependas de la memoro de partoprenantoj.
  • Observanto-biaso - sciencistoj, kiel ĉiuj homoj, pli emas vidi kion ili atendas vidi.
  • Seksisma kaj rasisma biaso - sekso aŭ raso povas esti tro- aŭ subreprezentita.  
  • Asocia biaso - la datumoj plifortigas stereotipojn

Por ke AI redonu fidindajn rezultojn, ĝiaj trejnaj datumoj devas reprezenti la realan mondon. Kiel ni diskutis en antaŭa blogartikolo, la preparado de datumoj estas kritika kaj kiel ajna alia datuma projekto. Nefidindaj datumoj povas instrui maŝinlernajn sistemojn la malĝustan lecionon kaj rezultigos malĝustan konkludon. Dirite, "Ĉiuj datumoj estas partiaj. Ĉi tio ne estas paranojo. Ĉi tio estas fakto." – D-ro Sanjiv M. Narayan, Universitato Stanforda Lernejo de Medicino.

Uzado de partiaj datumoj por trejnado kaŭzis kelkajn rimarkindajn fiaskojn de AI. (Ekzemploj tie kaj tie, esplorado tie...)

Partiaj Algoritmoj

Algoritmo estas aro de reguloj, kiuj akceptas enigaĵon kaj kreas produktaĵon por respondi komercan problemon. Ili ofte estas bone difinitaj decidaj arboj. Algoritmoj sentas kiel nigraj skatoloj. Neniu certas kiel ili funkcias, ofte, eĉ ne la kompanioj kiuj uzas ilin. Ho, kaj ili ofte estas proprietaj. Ilia mistera kaj kompleksa naturo estas unu el la kialoj kial partiaj algoritmoj estas tiel insidaj. . 

Konsideru AI-algoritmojn en medicino, HR aŭ financo, kiuj konsideras vetkuron. Se raso estas faktoro, la algoritmo ne povas esti rase blinda. Ĉi tio ne estas teoria. Problemoj kiel ĉi tiuj estis malkovritaj en la reala mondo uzante AI en contratación, rajd-kundivido, pruntpetos, kaj rena transplantado

La fundo estas, ke se viaj datumoj aŭ algoritmoj estas malbonaj, estas pli malbonaj ol senutilaj, ili povas esti danĝeraj. Estas tia afero kiel "algoritma revizio.” La celo estas helpi organizojn identigi la eblajn riskojn ligitajn al la algoritmo kiel ĝi rilatas al justeco, biaso kaj diskriminacio. Aliloke, Facebook uzas AI por batali antaŭjuĝon en AI.

Homoj estas Partiaj

Ni havas homojn ambaŭflanke de la ekvacio. Homoj preparas la analizon kaj homoj ricevas la informojn. Estas esploristoj kaj estas legantoj. En iu ajn komunikado, povas esti problemoj en la transdono aŭ ricevo.

Prenu veteron, ekzemple. Kion signifas "ŝanco de pluvo"? Unue, kion celas meteologoj, kiam ili diras, ke ekzistas ebleco de pluvo? Laŭ la usona registaro Nacia Veter-Servo, ebleco de pluvo, aŭ kion ili nomas Probability of Precipitation (PoP), estas unu el la malplej komprenitaj elementoj en veterprognozo. Ĝi havas norman difinon: "La probableco de precipitaĵo estas simple statistika probableco de 0.01″ coloj [sic] de [sic] pli da precipitaĵo ĉe antaŭfiksita areo en la antaŭfiksita prognozareo en la tempoperiodo specifita." La "donita areo" estas la prognoza areo, aŭ broadgisita areo. Tio signifas, ke la oficiala Probablo de Precipitaĵo dependas de la fido ke pluvos ie en la areo kaj la procento de la areo kiu malsekiĝos. Alivorte, se la meteologo certas, ke pluvos en la prognoza areo (Fido = 100%), tiam la PoP reprezentas la parton de la areo, kiu ricevos pluvon.  

Strato Parizo; Pluva Tago,Gustave Caillebotte (1848-1894) Ĉikaga Artinstituto Publika Domeno

La ŝanco de pluvo dependas de kaj fido kaj areo. Mi ne sciis tion. Mi suspektas, ke ankaŭ aliaj homoj ne scias tion. Ĉirkaŭ 75% de la populacio ne precize komprenas kiel PoP estas kalkulita, aŭ kion ĝi celas reprezenti. Do, ĉu ni estas trompitaj, aŭ ĉu ĉi tio estas problemo de percepto. Ni nomu ĝin percepto de precipitaĵo. Ĉu ni kulpigas la veterprognoziston? Por esti justa, estas iuj konfuzo ankaŭ inter veterprognozistoj. En unu enketo, 43% de meteologoj prienketitaj diris ke estas tre malmulte da konsistenco en la difino de PoP.

La Analizo Mem estas Partia

El la kvin influaj faktoroj, la analizo mem povas esti la plej surpriza. En scienca esplorado kiu rezultigas reviziitan artikolon estanta publikigita, tipe teorio estas hipotezita, metodoj estas difinitaj por testi la hipotezon, datenoj estas kolektitaj, tiam la datenoj estas analizitaj. La speco de analizo kiu estas farita kaj kiel ĝi estas farita estas subapreciata en kiel ĝi influas la konkludojn. En papero publikigita pli frue ĉi-jare (januaro 2022), en la International Journal of Cancer, la aŭtoroj taksis ĉu rezultoj de hazardaj kontrolitaj provoj kaj retrospektivaj observaj studoj. Iliaj trovoj konkludis, ke,

Variante analizajn elektojn en kompara efika esplorado, ni generis kontraŭajn rezultojn. Niaj rezultoj sugestas, ke iuj retrospektivaj observaj studoj povas trovi, ke traktado plibonigas rezultojn por pacientoj, dum alia simila studo povas trovi ke ĝi ne faras, simple surbaze de analizaj elektoj.

En la pasinteco, legante sciencan ĵurnalan artikolon, se vi estas kiel mi, vi eble pensis, ke la rezultoj aŭ konkludoj estas tute pri la datumoj. Nun, ŝajnas, ke la rezultoj, aŭ ĉu la komenca hipotezo estas konfirmita aŭ refutita, ankaŭ povas dependi de la metodo de analizo.

alia studo trovis similajn rezultojn. La artikolo, Multaj Analizistoj, Unu Datuma Aro: Travidebla Kiel Varioj en Analizaj Elektoj Influas Rezultojn, priskribas kiel ili donis la saman datumon al 29 malsamaj teamoj por analizi. Datenanalizo ofte estas vidita kiel strikta, bone difinita procezo kiu kondukas al ununura konkludo.  

Malgraŭ la riproĉoj de metodistoj, estas facile preteratenti la fakton, ke rezultoj povas dependi de la elektita analiza strategio, kiu mem estas trempita de teorio, supozoj kaj elektopunktoj. En multaj kazoj, ekzistas multaj raciaj (kaj multaj neraciaj) aliroj al taksado de datumoj kiuj rilatas al esplora demando.

La esploristoj amasigis la analizon de la datumoj kaj venis al la konkludo, ke ĉiuj esploroj inkluzivas subjektivajn decidojn - inkluzive de kian analizon uzi - kiuj povas influi la finfinan rezulton de la studo.

La rekomendo de alia esploristo kiu analizis la ĉi-supran studon, devas esti singarda kiam oni uzas ununuran artikolon por fari decidojn aŭ eltiri konkludojn.

Pritraktado de Biaso en Analytics

Ĉi tio simple celas esti averta rakonto. Scio povas protekti nin kontraŭ esti prenita de fraŭdoj. Ju pli konscias pri eblaj metodoj, kiujn skanilo povus uzi por trompi nin, des malpli verŝajne ni estos kaptitaj, ekzemple, de, ekzemple, misdirektado de poŝŝtelisto, aŭ la glata parolado de Ponzi-teatraĵo. Tiel estas kun komprenado kaj rekonado de eblaj biasoj kiuj influas nian analizon. Se ni konscias pri eblaj influoj, ni eble povus prezenti la rakonton pli bone kaj finfine fari pli bonajn decidojn.