Analitica bugia

by 31 agosto 2022BI/Analisi0 commenti

Analitica bugia

Il pregiudizio dell'analisi

 

Mark Twain disse in modo discutibile qualcosa del tipo: "Ci sono tre tipi di bugie: bugie, maledette bugie e analitica. " 

Diamo per scontato che l'analisi ci fornisca informazioni utili e utilizzabili. Quello che spesso non ci rendiamo conto è come i nostri pregiudizi e quelli degli altri influenzino le risposte che ci danno anche dai software e dai sistemi più sofisticati. A volte, possiamo essere manipolati in modo disonesto, ma, più comunemente, possono essere pregiudizi sottili e inconsci che si insinuano nelle nostre analisi. La motivazione alla base dell'analisi distorta è molteplice. A volte i risultati imparziali che ci aspettiamo dalla scienza sono influenzati da 1) scelte sottili nel modo in cui i dati vengono presentati, 2) dati incoerenti o non rappresentativi, 3) come vengono addestrati i sistemi di IA, 4) l'ignoranza, l'incompetenza dei ricercatori o di altri che provano per raccontare la storia, 5) l'analisi stessa.    

La presentazione è di parte

Alcune delle bugie sono più facili da individuare rispetto ad altre. Quando sai cosa cercare, potresti rilevarlo più facilmente grafici e grafici fuorvianti. 

Ci sono almeno cinque modi per visualizzare i dati in modo fuorviante: 1) Mostra un set di dati limitato, 2). Mostra correlazioni non correlate, 3) Mostra i dati in modo impreciso, 4) Mostra i dati in modo non convenzionale o 5). Mostra i dati troppo semplificati.

Mostra un set di dati limitato

Limitare i dati o selezionare manualmente una sezione non casuale dei dati può spesso raccontare una storia che non è coerente con il quadro generale. Il campionamento errato, o cherry picking, è quando l'analista utilizza un campione non rappresentativo per rappresentare un gruppo più ampio. 

Nel marzo 2020, Dipartimento della Sanità Pubblica della Georgia ha pubblicato questo grafico come parte del suo rapporto sullo stato quotidiano. In realtà solleva più domande di quante ne risponda.  

Una delle cose che manca è il contesto. Ad esempio, sarebbe utile sapere qual è la percentuale della popolazione per ciascuna fascia di età. Un altro problema con il grafico a torta dall'aspetto semplice sono i gruppi di età irregolari. Lo 0-17 ha 18 anni, il 18-59 ne ha 42, 60+ è a tempo indeterminato, ma ha circa 40 anni. La conclusione, dato solo questo grafico, è che la maggior parte dei casi si trova nella fascia di età 18-59 anni. La fascia di età 60+ anni sembra essere meno gravemente colpita dai casi di COVID. Ma questa non è tutta la storia.

Per confronto, questo diverso set di dati sul Sito web del CDC traccia i casi di COVID per fascia di età con i dati aggiuntivi sulla percentuale della popolazione statunitense che si trova in ciascuna fascia di età.  

Questo è meglio. Abbiamo più contesto. Possiamo vedere che le fasce di età 18-29, 30-39, 40-49 hanno tutte una percentuale di casi più alta rispetto alla percentuale della fascia di età nella popolazione. Ci sono ancora alcune fasce d'età irregolari. Perché i 16-17 anni sono una fascia di età separata? Eppure questa non è l'intera storia, ma gli esperti hanno scritto colonne, fatto previsioni e mandati su meno di questo. Ovviamente, con il COVID, sono molte le variabili oltre all'età che influiscono sull'essere conteggiate come caso positivo: stato vaccinale, disponibilità dei test, numero di volte testate, comorbidità e molte altre. Il numero di casi, di per sé, fornisce un quadro incompleto. La maggior parte degli esperti esamina anche il numero di decessi, o le percentuali di decessi per 100,000 abitanti, o casi di decessi per vedere come il COVID colpisce ogni fascia di età.

Mostra correlazioni non correlate

Ovviamente c'è un forte correlazione tra la spesa americana per scienza, spazio e tecnologia e il numero di suicidi per impiccagione, strangolamento e soffocamento. La correlazione è del 99.79%, quasi una corrispondenza perfetta.  

Chi, però, sosterrebbe che questi sono in qualche modo correlati, o che uno causa l'altro? Ci sono altri esempi meno estremi, ma non meno spuri. Esiste una forte correlazione simile tra le lettere nella parola vincente di Scripps National Spelling Bee e il numero di persone uccise dai ragni velenosi. Coincidenza? Tu decidi.

Un altro modo per tracciare questi dati che potrebbe essere meno fuorviante sarebbe includere zero su entrambi gli assi Y.

Mostra i dati in modo impreciso

Da Come visualizzare i dati male, lo Stato americano della Georgia ha presentato le prime 5 contee con il maggior numero di casi confermati di COVID-19.

Sembra legittimo, vero? Vi è chiaramente una tendenza al ribasso dei casi confermati di COVID-19. Riesci a leggere l'asse X? L'asse X rappresenta il tempo. In genere, le date aumenteranno da sinistra a destra. Qui vediamo un piccolo viaggio nel tempo sull'asse X: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

Attesa? Che cosa? L'asse X non è ordinato cronologicamente. Quindi, per quanto bella possa sembrare la tendenza, non possiamo trarre conclusioni. Se le date sono ordinate, le barre per il numero di casi mostrano più uno schema a dente di sega che qualsiasi tipo di tendenza.

La soluzione semplice qui è ordinare le date come fa un calendario.

Mostra i dati in modo non convenzionale

Siamo tutti occupati. I nostri cervelli ci hanno insegnato a formulare giudizi rapidi basati su presupposti che sono stati coerenti nel nostro mondo. Ad esempio, ogni grafico che abbia mai visto mostra gli assi x e y che si incontrano a zero o ai valori più bassi. Guardando brevemente questo grafico, quali conclusioni puoi trarre sull'effetto di Florida “Rispetta la tua legge fondamentale.”? Mi vergogno ad ammetterlo, ma all'inizio questo grafico mi ha ingannato. Il tuo sguardo è comodamente attratto dal testo e dalla freccia al centro dell'immagine. Il basso è in alto in questo grafico. Potrebbe non essere una bugia: i dati sono tutti a posto. Ma devo pensare che ha lo scopo di ingannare. Se non l'hai ancora visto, lo zero sull'asse y è in alto. Quindi, con la tendenza al ribasso dei dati, ciò significa più morti. Questo grafico mostra che il numero di omicidi con armi da fuoco è aumentato dopo il 2005, indicato dal trend in corso giù.

Mostra i dati troppo semplificati

Un esempio di eccessiva semplificazione dei dati può essere visto quando gli analisti sfruttano il paradosso di Simpson. Questo è un fenomeno che si verifica quando i dati aggregati sembrano dimostrare una conclusione diversa rispetto a quando sono separati in sottoinsiemi. È facile cadere in questa trappola quando si osservano percentuali aggregate di alto livello. Una delle illustrazioni più chiare del paradosso di Simpson al lavoro è correlata a medie di battuta.  

Qui vediamo che Derek Jeter ha una media di battuta complessiva più alta di David Justice per le stagioni 1995 e 1996. Il paradosso arriva quando ci rendiamo conto che la giustizia ha battuto Jeter nella media di battuta in entrambi quegli anni. Se guardi attentamente, ha senso quando ti rendi conto che Jeter aveva circa 4 volte più at-bat (il denominatore) nel 1996 con una media inferiore di .007 nel 1996. Mentre, Justice aveva circa 10 volte il numero di at-bat a soli . 003 media più alta nel 1995.

La presentazione sembra semplice, ma il paradosso di Simpson, consapevolmente o inconsapevolmente, ha portato a conclusioni errate. Di recente, ci sono stati esempi del paradosso di Simpson nelle notizie e sui social media relativi ai vaccini e alla mortalità da COVID. Uno grafico mostra un grafico a linee che confronta i tassi di mortalità tra vaccinati e non vaccinati per le persone di età compresa tra 10 e 59 anni. Il grafico dimostra che i non vaccinati hanno costantemente un tasso di mortalità inferiore. Cosa sta succedendo qui?  

Il problema è simile a quello che vediamo con le medie di battuta. Il denominatore in questo caso è il numero di individui in ciascuna fascia di età. Il grafico combina gruppi che hanno risultati diversi. Se osserviamo la fascia di età più avanzata, 50-59, separatamente, vediamo che i vaccinati se la cavano meglio. Allo stesso modo, se guardiamo a 10-49, vediamo anche che i vaccinati se la passano meglio. Paradossalmente, guardando l'insieme combinato, i non vaccinati sembrano avere un esito peggiore. In questo modo, puoi sostenere argomenti opposti usando i dati.

I dati sono distorti

I dati non possono essere sempre attendibili. Anche nella comunità scientifica, oltre un terzo dei ricercatori intervistati ha ammesso "pratiche di ricerca discutibili".  Un altro investigatore della frode di ricerca afferma: "Molto probabilmente c'è molta più frode nei dati - tabelle, grafici a linee, dati di sequenziamento [- di quanto stiamo effettivamente scoprendo]. Chiunque sia seduto al tavolo della cucina può inserire alcuni numeri in un foglio di calcolo e creare un grafico a linee che sembra convincente".

Questo primo esempio sembra che qualcuno abbia fatto proprio questo. Non sto dicendo che si tratti di una frode, ma come sondaggio, semplicemente non genera alcun dato che contribuisca a una decisione informata. Sembra che il sondaggio abbia chiesto agli intervistati la loro opinione sul caffè della stazione di servizio o su qualche altro evento rilevante di attualità.. 

  1. Superbo 
  2. Grande
  3. Molto Buone 

Ho ritagliato il post di Twitter per rimuovere i riferimenti alla parte colpevole, ma questo è l'intero grafico dei risultati finali del sondaggio. Sondaggi come questo non sono rari. Ovviamente, qualsiasi grafico creato dai dati risultanti dalle risposte mostrerà che il caffè in questione è da non perdere.  

Il problema è che se ti è stato dato questo sondaggio e non hai trovato una risposta che si adatta alle tue idee, salteresti il ​​sondaggio. Questo potrebbe essere un esempio estremo di come possono essere creati dati non affidabili. Una cattiva progettazione del sondaggio, tuttavia, può portare a meno risposte e coloro che rispondono hanno solo un'opinione, è solo una questione di grado. I dati sono distorti.

Questo secondo esempio di distorsione dei dati proviene dai file di "I peggiori grafici fuorvianti di COVID 19. " 

Ancora una volta, questo è sottile e non del tutto ovvio. Il grafico a barre mostra un calo graduale, quasi troppo regolare, della percentuale di casi positivi di COVID-19 nel tempo per una contea della Florida. Si potrebbe facilmente trarre la conclusione che i casi stanno diminuendo. È fantastico, la visualizzazione rappresenta accuratamente i dati. Il problema è nei dati. Quindi, è un pregiudizio più insidioso perché non puoi vederlo. È integrato nei dati. Le domande che devi porre, includono, chi viene testato? In altre parole, qual è il denominatore, ovvero la popolazione di cui stiamo guardando una percentuale. Il presupposto è che si tratti dell'intera popolazione, o almeno di un campione rappresentativo.

Tuttavia, durante questo periodo, in questa contea, i test venivano somministrati solo a un numero limitato di persone. Dovevano avere sintomi simili al COVID o avevano viaggiato di recente in un paese nell'elenco dei punti caldi. Inoltre, a confondere i risultati c'è il fatto che ogni test positivo è stato contato e ogni test negativo è stato contato. In genere, quando un individuo risultava positivo, eseguiva il test di nuovo quando il virus aveva fatto il suo corso e risultava negativo. Quindi, in un certo senso, per ogni caso positivo c'è un test case negativo che lo annulla. La stragrande maggioranza dei test è negativa e sono stati contati i test negativi di ogni individuo. Puoi vedere come i dati siano distorti e non particolarmente utili per prendere decisioni. 

L'input e l'allenamento dell'IA sono distorti

Esistono almeno due modi in cui l'IA può portare a risultati distorti: iniziare con dati distorti o utilizzare algoritmi distorti per elaborare dati validi.  

Input di parte

Molti di noi hanno l'impressione che ci si possa fidare dell'IA per sgranocchiare i numeri, applicare i suoi algoritmi e sputare un'analisi affidabile dei dati. L'intelligenza artificiale può essere intelligente solo quando è addestrata. Se i dati su cui è allenato sono imperfetti, non ci si potrà fidare nemmeno dei risultati o delle conclusioni. Simile al caso precedente della distorsione del sondaggio, ci sono diversi modi in cui i dati possono essere parziale nell'apprendimento automatico:.  

  • Bias del campione: il set di dati di addestramento non è rappresentativo dell'intera popolazione.
  • Bias di esclusione: a volte quelli che sembrano essere valori anomali sono effettivamente validi o dove tracciamo la linea su cosa includere (codici postali, date, ecc.).
  • Bias di misurazione: la convenzione è di misurare sempre dal centro e dal fondo del menisco, ad esempio, quando si misurano liquidi in matracci tarati o provette (tranne il mercurio).
  • Recall bias – quando la ricerca dipende dalla memoria dei partecipanti.
  • Pregiudizio dell'osservatore: gli scienziati, come tutti gli esseri umani, sono più inclini a vedere ciò che si aspettano di vedere.
  • Pregiudizio sessista e razzista: il sesso o la razza possono essere sovra o sottorappresentati.  
  • Bias di associazione: i dati rafforzano gli stereotipi

Affinché l'IA restituisca risultati affidabili, i suoi dati di addestramento devono rappresentare il mondo reale. Come abbiamo discusso in un precedente articolo del blog, la preparazione dei dati è fondamentale e come qualsiasi altro progetto di dati. Dati inaffidabili possono insegnare ai sistemi di apprendimento automatico la lezione sbagliata e porteranno a conclusioni sbagliate. Detto questo, "Tutti i dati sono distorti. Questa non è paranoia. Questo è un fatto". – Dott. Sanjiv M. Narayan, Scuola di Medicina dell'Università di Stanford.

L'utilizzo di dati distorti per la formazione ha portato a una serie di notevoli fallimenti dell'IA. (Esempi qui ed qui, ricerca qui..)

Algoritmi distorti

Un algoritmo è un insieme di regole che accettano un input e creano un output per rispondere a un problema aziendale. Sono spesso alberi decisionali ben definiti. Gli algoritmi sembrano scatole nere. Nessuno è sicuro di come funzionino, spesso, nemmeno il aziende che li utilizzano. Oh, e sono spesso proprietari. La loro natura misteriosa e complessa è uno dei motivi per cui gli algoritmi distorti sono così insidiosi. . 

Prendi in considerazione gli algoritmi di intelligenza artificiale in medicina, risorse umane o finanza che prendono in considerazione la razza. Se la razza è un fattore, l'algoritmo non può essere cieco dal punto di vista razziale. Questo non è teorico. Problemi come questi sono stati scoperti nel mondo reale utilizzando l'IA assunzione, ride-sharing, domanda di prestitos, e trapianti di rene

La linea di fondo è che se i tuoi dati o algoritmi sono cattivi, peggio che inutili, potrebbero essere pericolosi. Esiste una cosa come un "audit algoritmico.” L'obiettivo è aiutare le organizzazioni a identificare i potenziali rischi relativi all'algoritmo in relazione all'equità, ai pregiudizi e alla discriminazione. Altrove, Facebook sta usando l'IA per combattere i pregiudizi nell'IA.

Le persone sono di parte

Abbiamo persone su entrambi i lati dell'equazione. Le persone stanno preparando l'analisi e le persone stanno ricevendo le informazioni. Ci sono ricercatori e ci sono lettori. In qualsiasi comunicazione possono esserci problemi nella trasmissione o nella ricezione.

Prendi il tempo, per esempio. Cosa significa "possibilità di pioggia"? Primo, cosa intendono i meteorologi quando dicono che c'è una possibilità di pioggia? Secondo il governo degli Stati Uniti Servizio Meteo Nazionale, una possibilità di pioggia, o ciò che chiamano Probability of Precipitation (PoP), è uno degli elementi meno compresi nelle previsioni del tempo. Ha una definizione standard: "La probabilità di precipitazioni è semplicemente una probabilità statistica di 0.01 pollici [sic] di [sic] in più di precipitazioni in una data area nella data area di previsione nel periodo di tempo specificato". L'"area data" è l'area di previsione, oppure broadzona di colata. Ciò significa che la probabilità ufficiale di precipitazione dipende dalla certezza che pioverà da qualche parte nell'area e dalla percentuale dell'area che si bagnerà. In altre parole, se il meteorologo è sicuro che pioverà nell'area di previsione (Fiducia = 100%), allora il PoP rappresenta la porzione dell'area che riceverà pioggia.  

Via Parigi; Giorno di pioggia,Gustave Caillebotte (1848-1894) Chicago Art Institute di dominio pubblico

La possibilità di pioggia dipende sia dalla sicurezza che dall'area. Non lo sapevo. Sospetto che anche altre persone non lo sappiano. Circa il 75% della popolazione non comprende con precisione come viene calcolato il PoP o cosa intende rappresentare. Quindi, siamo stati ingannati, o questo è un problema di percezione. Chiamiamola percezione delle precipitazioni. Diamo la colpa al meteorologo? Ad essere onesti, ce n'è qualcuno confusione anche tra i meteorologi. In uno sondaggio, il 43% dei meteorologi intervistati ha affermato che c'è pochissima coerenza nella definizione di PoP.

L'analisi stessa è distorta

Dei cinque fattori di influenza, l'analisi stessa può essere la più sorprendente. Nella ricerca scientifica che porta alla pubblicazione di un articolo rivisto, in genere viene ipotizzata una teoria, vengono definiti metodi per verificare l'ipotesi, vengono raccolti i dati, quindi i dati vengono analizzati. Il tipo di analisi che viene eseguita e il modo in cui viene eseguita è sottovalutato nel modo in cui influisce sulle conclusioni. In un carta pubblicato all'inizio di quest'anno (gennaio 2022), sull'International Journal of Cancer, gli autori hanno valutato se i risultati di studi randomizzati controllati e studi osservazionali retrospettivi. I loro risultati hanno concluso che,

Variando le scelte analitiche nella ricerca sull'efficacia comparativa, abbiamo generato risultati contrari. I nostri risultati suggeriscono che alcuni studi osservazionali retrospettivi potrebbero scoprire che un trattamento migliora i risultati per i pazienti, mentre un altro studio simile potrebbe non trovarlo, semplicemente sulla base di scelte analitiche.

In passato, quando leggevi un articolo di una rivista scientifica, se sei come me, potresti aver pensato che i risultati o le conclusioni riguardassero tutti i dati. Ora, sembra che i risultati, o se l'ipotesi iniziale sia confermata o confutata, possano dipendere anche dal metodo di analisi.

Un altro studio trovato risultati simili. L'articolo, Molti analisti, un set di dati: rendere trasparente il modo in cui le variazioni nelle scelte analitiche influiscono sui risultati, descrive come hanno fornito lo stesso set di dati a 29 diversi team da analizzare. L'analisi dei dati è spesso vista come un processo rigoroso e ben definito che porta a un'unica conclusione.  

Nonostante le rimostranze dei metodologi, è facile trascurare il fatto che i risultati possono dipendere dalla strategia analitica scelta, che a sua volta è imbevuta di teoria, ipotesi e punti di scelta. In molti casi, ci sono molti approcci ragionevoli (e molti irragionevoli) per valutare i dati che riguardano una domanda di ricerca.

I ricercatori hanno raccolto l'analisi dei dati e sono giunti alla conclusione che tutta la ricerca include decisioni soggettive, incluso il tipo di analisi da utilizzare, che possono influenzare il risultato finale dello studio.

La raccomandazione di un altro ricercatore chi ha analizzato lo studio di cui sopra deve essere cauto quando utilizza un singolo documento per prendere decisioni o trarre conclusioni.

Affrontare la distorsione in Analytics

Questo vuole semplicemente essere un ammonimento. La conoscenza può proteggerci dall'essere ingannati dalle truffe. Più è consapevole dei possibili metodi che uno scanner potrebbe usare per ingannarci, meno è probabile che veniamo ingannati, diciamo, da, per esempio, la direzione sbagliata di un borseggiatore o il discorso tranquillo di un'opera teatrale di Ponzi. Lo stesso vale per la comprensione e il riconoscimento dei potenziali pregiudizi che influiscono sulle nostre analisi. Se siamo consapevoli delle potenziali influenze, potremmo essere in grado di presentare meglio la storia e, in definitiva, prendere decisioni migliori.  

BI/AnalisiAltro
Metti in ordine le tue intuizioni: una guida alle pulizie di primavera dell'analisi

Metti in ordine le tue intuizioni: una guida alle pulizie di primavera dell'analisi

Metti in ordine le tue intuizioni Una guida all'analisi Pulizie di primavera Il nuovo anno inizia con il botto; Vengono creati ed esaminati i rapporti di fine anno, quindi tutti si stabiliscono in un programma di lavoro coerente. Man mano che le giornate si allungano e gli alberi e i fiori sbocciano,...

Scopri di più

BI/AnalisiAltro
Pizza stile New York contro pizza stile Chicago: un delizioso dibattito

Pizza stile New York contro pizza stile Chicago: un delizioso dibattito

Quando si soddisfano le nostre voglie, poche cose possono rivaleggiare con la gioia di una fetta di pizza fumante. Il dibattito tra la pizza in stile newyorkese e quella in stile Chicago ha suscitato discussioni appassionate per decenni. Ogni stile ha le sue caratteristiche uniche e fan devoti....

Scopri di più

BI/Analisi
Cataloghi di Analytics: una stella nascente nell'ecosistema di Analytics

Cataloghi di Analytics: una stella nascente nell'ecosistema di Analytics

Introduzione In qualità di Chief Technology Officer (CTO), sono sempre alla ricerca di tecnologie emergenti che trasformino il modo in cui affrontiamo l'analisi. Una di queste tecnologie che ha attirato la mia attenzione negli ultimi anni e che rappresenta un'enorme promessa è Analytics...

Scopri di più