Menzogna analítica

by Aug 31, 2022BI/Analitichemissaghji 0

Menzogna analítica

U preghjudiziu di l'analisi

 

Mark Twain disse in discussione qualcosa cum'è: "Ci sò trè tippi di bugie: bugie, bugie dannate è drupal. " 

Pidemu per scontru chì l'analitiche ci dà insights utili è azzione. Ciò chì spessu ùn capemu micca hè cumu i nostri preghjudizii è quelli di l'altri influenzanu e risposte chì avemu datu ancu da u software è i sistemi più sofisticati. Calchì volta, pudemu esse manipulati disonestamente, ma, più cumunimenti, pò esse preghjudizii suttili è inconsciente chì si insinuanu in a nostra analitica. A motivazione daretu à l'analitiche biased hè parechje. Calchì volta i risultati imparziali chì aspittemu da a scienza sò influenzati da 1) scelte sottili in quantu à a presentazione di e dati, 2) dati inconsistenti o micca rapprisentanti, 3) cumu si sò furmati i sistemi AI, 4) l'ignuranza, l'incompetenza di i circadori o altri chì pruvate. per cuntà a storia, 5) l'analisi stessu.    

A Presentazione hè Biased

Alcune di e bugie sò più faciuli di vede chè l'altri. Quandu sapete ciò chì cercate, pudete scopre più facilmente grafici è grafici ingannevoli. 

Ci sò almenu Cinque modi per vede ingannosamente i dati: 1) Mostra un settore di dati limitatu, 2). Mostra i correlazioni senza relazione, 3) Mostra i dati in modu imprecisu, 4) Mostra i dati in modu micca convenzionale, o 5). Mostra dati simplificatu troppu.

Mostra un settore limitatu di dati

Limiting i dati, o a manu selezziunà una rùbbrica non-aleatoriu di i dati pò spessu cuntà una storia chì ùn hè coherente cù u big picture. Bad sampling, o cherry picking, hè quandu l'analista usa una mostra non rapprisentativa per rapprisintà un gruppu più grande. 

Ntô marzu 2020, Dipartimentu di Salute Publica di Georgia publicatu stu graficu cum'è parte di u so rapportu di status di ogni ghjornu. In realtà, suscite più dumande chè ùn risponde.  

Una di e cose chì manca hè u cuntestu. Per esempiu, saria utile sapè quale hè u percentuale di a pupulazione per ogni gruppu di età. Un altru prublema cù u graficu di torta simplice hè i gruppi d'età irregolari. U 0-17 hà 18 anni, 18-59 hà 42, 60+ hè apertu, ma hà circa 40 anni. A cunclusione, datu stu graficu solu, hè chì a maiò parte di i casi sò in u gruppu d'età di 18-59 anni. U gruppu d'età di più di 60 anni pare esse menu affettatu da i casi COVID. Ma questu ùn hè micca tutta a storia.

Per paraguni, sta dati differente stabilitu nantu à u U situ web di u CDC grafica i casi di COVID per gruppu d'età cù e dati supplementari nantu à u percentuale di a pupulazione di i Stati Uniti chì hè in ogni fascia d'età.  

Questu hè megliu. Avemu più cuntestu. Pudemu vede chì i gruppi di età 18-29, 30-39, 40-49 anu tutti un percentinu di casi più altu ch'è u percentualità di u gruppu d'età in a pupulazione. Ci sò ancu qualchi gruppi d'età irregolari. Perchè 16-17 hè un gruppu d'età separatu? Eppuru questu ùn hè micca tutta a storia, ma i pundits anu scrittu culonni, fattu predizioni è mandati nantu à menu di questu. Ovviamente, cù COVID, ci sò parechje variabili in più di l'età chì affettanu esse cuntatu cum'è un casu pusitivu: status di vaccinazione, dispunibilità di teste, numeru di volte testate, comorbidità, è assai altri. U numeru di casi, stessu, furnisce una stampa incompleta. A maiò parte di l'esperti guardanu ancu u numeru di morti, o percentuali di morti per 100,000 pupulazioni, o casi-fatalità per vede cumu COVID affetta ogni gruppu d'età.

Mostra correlazioni senza relazione

Ovviamente, ci hè un forte correlazione trà US spesa in a scienza, u spaziu, è tecnulugia è u numeru di Suicidi da impiccatura, strangulation è suffocation. A Correlazione hè 99.79%, quasi un match perfettu.  

Quale, però, faria u casu chì questi sò in qualchì manera ligati, o unu causa l'altru? Ci sò altri esempii menu estremi, ma micca menu spuri. Ci hè una forte correlazione simili trà Lettere in Parola vincente di Scripps National Spelling Bee è Number of People Killed by Venomous Spiders. Coincidenza ? Tu decide.

Un altru modu di cartulari sta dati chì pò esse menu ingannevoli seria di include zero in i dui assi Y.

Mostra i dati in modu imprecisu

From Cumu visualizà dati male, u Statu di i Stati Uniti di Georgia hà presentatu i Top 5 Contea cù u più grande numeru di casi COVID-19 cunfirmati.

Sembra legittimu, nò? Ci hè chjaramente una tendenza discendente di i casi cunfirmati di COVID-19. Pudete leghje l'assi X? L'assi X rapprisenta u tempu. Di genere, e date aumentanu da manca à diritta. Eccu, vedemu un pocu viaghju in u tempu nantu à l'assi X: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

Aspetta ? Chì ? L'assi X ùn hè micca ordinatu cronologicamente. Allora, quant'è bella chì a tendenza puderia vede, ùn pudemu micca tirà alcuna cunclusione. Se e date sò urdinate, i bars per u numeru di casi mostranu più di un mudellu di serratura di ogni tipu di tendenza.

A correzione faciule quì hè di sorte e date cum'è un calendariu.

Mostra i dati in modu micca convenzionale

Semu tutti occupati. U nostru cervellu ci hà amparatu à fà ghjudizii rapidi basati nantu à ipotesi chì sò stati cunsistenti in u nostru mondu. Per esempiu, ogni graficu ch'e aghju mai vistu mostra l'assi x è y riunite à zero, o i valori più bassi. Fighjendu brevemente stu graficu, chì cunclusioni pudete piglià nantu à l'effettu di a Florida "Resta a vostra lege di terra."? Mi vergogna d'ammettelu, ma stu graficu m'hà ingannatu prima. U vostru ochju hè convenientemente attiratu à u testu è a freccia à mezu à u graficu. Down hè sopra in stu graficu. Pò esse micca una bugia - i dati sò tutti bè. Ma, aghju da pensà chì hè destinatu à ingannà. Se ùn l'avete micca vistu ancu, cero nantu à l'assi y hè in cima. Dunque, cum'è e tendenze di e dati, questu significa più morti. Stu graficu mostra chì u numeru di omicidi cù armi di focu aumentu dopu à u 2005, indicatu da a tendenza andendu falà.

Mostra i dati troppu simplificatu

Un esempiu di simplificazione eccessiva di e dati pò esse vistu quandu l'analista prufittà di u Paradossu di Simpson. Questu hè un fenomenu chì si verifica quandu i dati aggregati parevanu dimustrà una cunclusione sfarente da quandu sò siparati in sottogruppi. Questa trappula hè faciule per cascà quandu si vede à percentuali aggregati d'altu livellu. Unu di l'illustrazioni più chjaru di u Paradossu di Simpson à u travagliu hè in relazione medie di battuta.  

Quì vedemu chì Derek Jeter hà una media generale di batte più altu ch'è David Justice per e stagioni 1995 è 1996. U paradossu vene quandu avemu capitu chì a Ghjustizia hà battutu à Jeter in a media di batte in i dui anni. Se guardate attentamente, hè sensu quandu avete capitu chì Jeter avia apprussimatamente 4x più at-bats (u denominatore) in 1996 à una media più bassa di .007 in 1996. Mentre chì a Ghjustizia avia circa 10x u numeru di at-bats à solu . 003 media più altu in u 1995.

A presentazione pare chjara, ma u Paradossu di Simpson, in modo cuntentu o inconscientu, hà purtatu à cunclusioni sbagliate. Recentemente, ci sò stati esempi di u Paradossu di Simpson in e nutizie è in e social media in relazione à i vaccini è a mortalità COVID. Unu cuadru mostra un graficu di linea chì compara i tassi di morte trà vaccinati è micca vaccinati per e persone di età 10-59 anni. U graficu dimustra chì i non vaccinati anu sempre un tassu di mortalità più bassu. Chì si passa quì ?  

U prublema hè simile à quellu chì vedemu cù e medie di batte. U denominatore in questu casu hè u numeru di individui in ogni gruppu di età. U graficu combina gruppi chì anu risultati diffirenti. Se guardemu à u gruppu d'età maiò, 50-59, per separatamente, vedemu chì i vaccinati sò megliu. In listessu modu, se guardemu à 10-49, vedemu ancu chì i vaccinati sò megliu. Paradossalmente, quandu si vede u settore cumminatu, i vaccinati parevanu avè un risultatu peghju. In questu modu, pudete fà un casu per argumenti opposti cù e dati.

I Dati sò Biased

I dati ùn ponu micca sempre esse fiducia. Ancu in a cumunità scientifica, più di un terzu di i circadori interpellati ammessi "pratica di ricerca discutibile".  N'àutra detective fraudulente di ricerca dice: "Ci hè assai prubabilmente assai più frode in dati - tavule, grafici di linea, dati di sequenza [– di ciò chì scopremu veramente]. Qualchissia chì si sente à a so tavula di cucina pò mette qualchi numeri in una foglia di calculu è fà un graficu di linea chì pare cunvincente ".

Questu primu esempiu pare chì qualcunu hà fattu cusì. Ùn dicu micca chì questu hè fraudulente, ma cum'è una indagine, ùn solu ùn genera micca dati chì cuntribuiscenu à una decisione informata. Sembra chì l'indagine hà dumandatu à i rispondenti nantu à a so opinione di u caffè di a stazione di benzina, o qualchì altru avvenimentu attuale pertinenti. 

  1. Superb 
  2. Perfettu
  3. Assai bonu 

Aghju tagliatu u post di Twitter per caccià e referenze à u culpèvule, ma questu hè u graficu tutale attuale di i risultati finali di l'indagine. Sondaggi cum'è questu ùn sò micca rari. Ovviamente, ogni graficu creatu da e dati risultanti da e risposte mostrarà chì u caffè in quistione ùn deve esse mancatu.  

U prublema hè chì s'ellu avete statu datu sta indagine è ùn avete micca truvatu una risposta chì si adatta à u vostru pensamentu, saltate l'indagine. Questu pò esse un esempiu estremu di cumu si ponu creà dati micca affidabili. Un poveru disignu di l'indagine, però, pò purtà à menu risposte è quelli chì rispundenu anu una sola opinione, hè solu una questione di gradu. I dati sò biased.

Stu secondu esempiu di preghjudiziu di dati hè da i schedari di "I peggiori grafici ingannevoli di COVID 19. " 

In novu, questu hè sottile è micca cumplettamente evidenti. U graficu à barre mostra una diminuzione liscia - quasi troppu liscia - in u percentuale di casi COVID-19 pusitivi cù u tempu per un cuntatu in Florida. Puderete facilmente a cunclusione chì i casi sò in diminuzione. Hè grande, a visualizazione rapprisenta accuratamente i dati. U prublema hè in i dati. Dunque, hè un preghjudiziu più insidiosu perchè ùn pudete micca vede. Hè coccu in i dati. E dumande chì avete bisognu di dumandà, include, quale hè esse pruvatu? In altri palori, quale hè u denominatore, o a pupulazione di quale avemu vistu un percentinu. L'assunzione hè chì hè tutta a pupulazione, o almenu, una mostra rappresentativa.

Tuttavia, duranti stu piriu, in stu cuntatu, i testi sò stati dati solu à un numeru limitatu di persone. Avianu avutu sintomi simili à COVID, o avianu viaghjatu recentemente in un paese nantu à a lista di i punti caldi. Inoltre, cunfundendu i risultati hè u fattu chì ogni prova pusitiva hè stata cuntata è ogni prova negativa hè stata cuntata. Di genere, quandu un individuu testatu pusitivu, testava di novu quandu u virus avia fattu u so cursu è avaristi negativu. Dunque, in un certu sensu, per ogni casu pusitivu, ci hè un casu di teste negativu chì l'annulla. A maiò parte di e teste sò negativi è i testi negativi di ogni individuu sò stati cuntati. Pudete vede cumu a dati hè preghjudiziu è micca particularmente utile per a decisione. 

L'input è a furmazione di l'IA sò biasi

Ci hè almenu duie manere in quale l'AI pò purtà à risultati preghjudizii: cuminciendu cù dati preghjudiziati, o utilizendu algoritmi biased per processà e dati validi.  

Input biased

Parechji di noi sò sottu à l'impressione chì l'AI pò esse fiduciale per crunch i numeri, applicà i so algoritmi, è sputanu un analisi affidabile di e dati. L'Intelligenza Artificiale pò esse solu cum'è intelligente quantu hè furmatu. Se i dati nantu à quale hè furmatu hè imperfettu, i risultati o cunclusioni ùn puderanu micca esse fiducia, nè. Simile à u casu sopra di preghjudiziu di l'inchiesta, ci sò parechje manere in quale i dati ponu esse sguassatu in machine learning:.  

  • Sample bias - u dataset di furmazione ùn hè micca rappresentante di a pupulazione sana.
  • Preghjudiziu di l'esclusione - qualchì volta ciò chì pareanu esse outliers sò veramente validi, o, induve tracciamu a linea nantu à ciò chì include (codici postali, date, etc.).
  • Preghjudiziu di misurazione - a cunvenzione hè di misurà sempre da u centru è u fondu di u meniscu, per esempiu, quandu si misurà liquidi in fiaschi volumetrichi o provette (eccettu u mercuriu).
  • Recall bias - quandu a ricerca dipende da a memoria di i participanti.
  • Observer bias - i scientisti, cum'è tutti l'omu, sò più inclinati à vede ciò chì aspettanu di vede.
  • Preghjudiziu sessista è razzista - u sessu o a razza pò esse sopra o sottorappresentati.  
  • Bias di l'associazione - i dati rinforza i stereotipi

Per chì l'AI torni risultati affidabili, i so dati di furmazione anu bisognu di rapprisintà u mondu reale. Cumu avemu discututu in un articulu di blog precedente, a preparazione di dati hè critica è cum'è qualsiasi altru prughjettu di dati. I dati inaffidabili ponu insegnà à i sistemi di apprendimentu automaticu a lezione sbagliata è darà a cunclusione sbagliata. Dice questu, "Tutte i dati sò preghjudizii. Questu ùn hè micca paranoia. Questu hè un fattu. " – Dr Sanjiv M. Narayan, Scola di Medicina di l'Università di Stanford.

L'usu di dati biased per a furmazione hà purtatu à una quantità di fallimenti notevoli di AI. (Esempii ccà e ccà, ricerca ccà..)

Algoritmi biased

Un algoritmu hè un inseme di regule chì accettanu un input è crea output per risponde à un prublema cummerciale. Sò spessu arburi di decisione ben definiti. L'algoritmi si sentenu cum'è scatuli neri. Nimu ùn hè sicuru cumu si travaglianu, spessu, mancu cumpagnie chì l'utilizanu. Oh, è sò spessu pruprietarii. A so natura misteriosa è cumplessa hè una di e ragioni per chì l'algoritmi biased sò cusì insidiosi. . 

Cunsiderate l'algoritmi AI in medicina, HR o finanza chì piglianu a razza in cunsiderazione. Se a razza hè un fattore, l'algoritmu ùn pò micca esse razzialmente cecu. Questu ùn hè micca teoricu. I prublemi cum'è questi sò stati scuperti in u mondu reale usendu AI in allughjassi, ride-share, applicazione di prestitus, e trasplante di reni

U fondu hè chì se i vostri dati o l'algoritmi sò cattivi, sò peggiu chè inutilità, ponu esse periculosi. Ci hè una cosa cum'è un "audit algoritmicu." U scopu hè di aiutà l'urganisazione à identificà i risichi potenziali ligati à l'algoritmu in quantu à l'equità, a preghjudiziu è a discriminazione. Altrò, Facebook usa l'IA per cumbatte i preghjudizii in l'IA.

E persone sò biased

Avemu persone in i dui lati di l'equazioni. A ghjente prepara l'analisi è a ghjente riceve l'infurmazioni. Ci sò circadori è ci sò lettori. In ogni cumunicazione, pò esse prublemi in a trasmissione o ricezione.

Pigliate u clima, per esempiu. Chì significà "a chance of rain"? Prima, chì significheghjanu i meteorologi quand'elli dicenu chì ci hè una probabilità di pioggia? Sicondu u guvernu US U serviziu di Natale, a chance of rain, o ciò chì chjamanu Probability of Precipitation (PoP), hè unu di l'elementi menu capitu in una previsione meteorologica. Hà una definizione standard: "A probabilità di precipitazione hè solu una probabilità statistica di 0.01" inch [sic] di [sic] più di precipitazione in una determinata zona in a data di previsione in u periodu di tempu specificatu. A "zona data" hè a zona di previsione, o broadzona di cast. Questu significa chì a Probabilità ufficiale di Precipitazioni dipende da a cunfidenza chì piove in qualchì locu in l'area è u percentualità di l'area chì si sguasserà. In altri palori, se u meteorologu hè cunfidendu chì piove in l'area di previsione (Confidenza = 100%), allora u PoP rapprisenta a parte di l'area chì riceve a pioggia.  

Strada di Parigi; Ghjornu di pioggia,Gustave Caillebotte (1848-1894) Chicago Art Institute Public Domain

A probabilità di pioggia dipende da a cunfidenza è a zona. Ùn sapia micca chì. Sospettu chì l'altri ùn sanu micca cusì. Circa u 75% di a pupulazione ùn capisce micca esattamente cumu u PoP hè calculatu, o ciò chì hè destinatu à rapprisintà. Allora, simu ingannati, o, hè questu un prublema di percepzioni. Chjamemu a percepzione di precipitazione. Culpamu à u meteo? Per esse ghjustu, ci hè un pocu cunfusioni ancu trà i previsioni di u tempu. In unu log, 43% di i meteorologi indagati dicenu chì ci hè assai pocu coherenza in a definizione di PoP.

L'analisi stessa hè biased

Di i cinque fattori influenti, l'analisi stessu pò esse u più sorprendente. In a ricerca scientifica chì i risultati in un documentu rivisatu esse publicatu, tipicamente una teoria hè ipotizzata, i metudi sò definiti per pruvà l'ipotesi, i dati sò recullati, poi i dati sò analizati. U tipu d'analisi chì hè fattu è cumu si hè fattu hè sottovalutatu in quantu affetta e cunclusioni. In a a carta publicatu prima di questu annu (ghjennaghju 2022), in u International Journal of Cancer, l'autori anu evaluatu se risultati di prucessi cuntrullati randomizzati è studii osservativi retrospettivi. E so scuperte anu cunclusu chì,

Variendu scelte analitiche in a ricerca di efficacità comparativa, avemu generatu risultati cuntrariu. I nostri risultati suggerenu chì certi studii osservativi retrospettivi ponu truvà un trattamentu migliurà i risultati per i pazienti, mentre chì un altru studiu simili pò truvà micca, solu basatu nantu à scelte analitiche.

In u passatu, quandu leghje un articulu di ghjurnale scientificu, sè vo site cum'è mè, pudete avè pensatu chì i risultati o cunclusioni sò tutti nantu à e dati. Avà, pare chì i risultati, o se l'ipotesi iniziale hè cunfirmata o refuted, pò ancu dipende di u metudu di analisi.

N'àutra studiu trovu risultati simili. L'articulu, Parechji Analisti, Un Inseme di Dati: Trasparendu cumu e Variazioni in Scelte Analitiche Affettanu i Risultati, descrive cumu anu datu u stessu set di dati à 29 squadre diverse per analizà. L'analisi di dati hè spessu vistu cum'è un prucessu strettu è ben definitu chì porta à una sola cunclusione.  

Malgradu i ripruvazioni di i metodologi, hè faciule per sminticà u fattu chì i risultati ponu dipende da a strategia analitica scelta, chì ellu stessu hè impregnata di teoria, supposizioni è punti di scelta. In parechji casi, ci sò parechji approcci ragiunate (è assai irragionevuli) per evaluà e dati chì portanu nantu à una quistione di ricerca.

I circadori anu affucatu l'analisi di e dati è sò ghjunti à a cunclusione chì tutte e ricerche includenu decisioni subjective - cumpresu quale tipu d'analisi à aduprà - chì ponu influenzà u risultatu finali di u studiu.

A raccomandazione di un altru investigatore chì hà analizatu u studiu sopra hè di esse prudente quandu utilizate un unicu documentu per piglià decisioni o cunclusioni.

Adressing Bias in Analytics

Questu hè solu destinatu à esse una storia di prudenza. A cunniscenza pò prutezzione di noi da esse pigliatu da scams. U più cuscenti di i metudi pussibuli chì un scanner puderia usà per ingannà noi, u menu prubabile chì avemu da esse pigliatu, per dì, da una misdirection di un pickpocket, o da una conversazione liscia di un ghjocu Ponzi. Dunque hè cun capiscenu è ricunnosce i preghjudizii potenziali chì affettanu a nostra analisi. Sè avemu cunuscenza di influenze putenziali, pudemu esse capace di presentà a storia megliu è, infine, piglià decisioni megliu.