Mentida analítica

by Agost 31, 2022BI/Analítica0 comentaris

Mentida analítica

El biaix de l'anàlisi

 

Mark Twain va dir de manera discutible alguna cosa com: "Hi ha tres tipus de mentides: mentides, mentides maleïdes i analítica". 

Donem per suposat que l'anàlisi ens ofereix informació útil i útil. El que sovint no ens adonem és com els nostres propis biaixos i els dels altres influeixen en les respostes que ens donen fins i tot el programari i els sistemes més sofisticats. De vegades, podem ser manipulats de manera deshonesta, però, més habitualment, poden ser prejudicis subtils i inconscients que s'introdueixen a les nostres analítiques. La motivació darrere de l'anàlisi esbiaixada és múltiple. De vegades, els resultats imparcials que esperem de la ciència estan influenciats per 1) eleccions subtils en com es presenten les dades, 2) dades inconsistents o no representatives, 3) com s'entrenen els sistemes d'IA, 4) la ignorància, la incompetència dels investigadors o d'altres que ho intenten. per explicar la història, 5) l'anàlisi en si.    

La presentació és esbiaixada

Algunes de les mentides són més fàcils de detectar que d'altres. Quan sabeu què buscar, és possible que detecteu més fàcilment gràfics i gràfics enganyosos. 

N’hi ha almenys cinc maneres de mostrar dades de manera enganyosa: 1) Mostra un conjunt de dades limitat, 2). Mostra les correlacions no relacionades, 3) Mostra les dades de manera inexacte, 4) Mostra les dades de manera no convencional o 5). Mostra les dades massa simplificades.

Mostra un conjunt de dades limitat

Limitar les dades o seleccionar manualment una secció no aleatòria de les dades sovint pot explicar una història que no és coherent amb el panorama general. El mal mostreig, o la selecció de cireres, és quan l'analista utilitza una mostra no representativa per representar un grup més gran. 

Al març 2020, Departament de Salut Pública de Geòrgia va publicar aquest gràfic com a part del seu informe diari d'estat. De fet, planteja més preguntes que no pas respon.  

Una de les coses que falta és el context. Per exemple, seria útil saber quin és el percentatge de població per a cada grup d'edat. Un altre problema amb el gràfic circular d'aspecte senzill són els grups d'edat desiguals. El 0-17 té 18 anys, el 18-59 en té 42, el 60+ és obert, però té uns 40 anys. La conclusió, només tenint en compte aquest gràfic, és que la majoria dels casos es troben en el grup d'edat de 18 a 59 anys. El grup d'edat de més de 60 anys sembla estar menys afectat pels casos de COVID. Però aquesta no és tota la història.

Per comparar, aquest conjunt de dades diferent al Lloc web dels CDC gràfics de casos de COVID per grup d'edat amb les dades addicionals sobre el percentatge de població dels EUA que es troba en cada interval d'edat.  

Això és millor. Tenim més context. Podem observar que els grups d'edat 18-29, 30-39, 40-49 tenen tots un percentatge de casos superior al percentatge del grup d'edat a la població. Encara hi ha grups d'edat desiguals. Per què els 16-17 són un grup d'edat diferent? Tot i així, aquesta no és tota la història, però els experts han escrit columnes, fet prediccions i mandats sobre menys d'això. Òbviament, amb la COVID, hi ha moltes variables a més de l'edat que afecten a comptar com a cas positiu: estat de vacunació, disponibilitat de proves, nombre de vegades que s'han provat, comorbiditats i moltes altres. El nombre de casos, en si, proporciona una imatge incompleta. La majoria dels experts també examinen el nombre de morts, o percentatges de morts per cada 100,000 habitants, o les víctimes mortals per veure com afecta la COVID a cada grup d'edat.

Mostra correlacions no relacionades

Evidentment, hi ha un forta correlació entre la despesa dels Estats Units en ciència, espai i tecnologia i el nombre de suïcidis per penjament, estrangulació i asfixia. La correlació és del 99.79%, gairebé una combinació perfecta.  

Qui, però, diria que aquests estan relacionats d'alguna manera, o que un provoca l'altre? Hi ha altres exemples menys extrems, però no menys espuris. Hi ha una forta correlació similar entre les lletres a la paraula guanyadora de Scripps National Spelling Bee i el nombre de persones assassinades per aranyes verinoses. Coincidència? Tu decideixes.

Una altra manera de traçar aquestes dades que pot ser menys enganyosa seria incloure zero als dos eixos Y.

Mostra les dades de manera incorrecta

de Com mostrar les dades malament, l'estat nord-americà de Geòrgia va presentar els 5 primers comtats amb el major nombre de casos confirmats de COVID-19.

Sembla legítim, oi? Hi ha clarament una tendència a la baixa dels casos confirmats de COVID-19. Pots llegir l'eix X? L'eix X representa el temps. Normalment, les dates augmentaran d'esquerra a dreta. Aquí, veiem un petit viatge en el temps a l'eix X: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

Esperar? Què? L'eix X no està ordenat cronològicament. Per tant, per molt agradable que sembli la tendència, no podem treure cap conclusió. Si s'ordenen les dates, les barres del nombre de casos mostren més un patró de dents de serra que qualsevol tipus de tendència.

La solució fàcil aquí és ordenar les dates com ho fa un calendari.

Mostra les dades de manera no convencional

Estem tots ocupats. El nostre cervell ens ha ensenyat a fer judicis ràpids basats en supòsits que han estat coherents al nostre món. Per exemple, tots els gràfics que he vist mai mostren els eixos x i y que es troben a zero o els valors més baixos. Mirant breument aquest gràfic, quines conclusions podeu treure sobre l'efecte de la Florida "Manteniu la vostra llei bàsica.”? Em fa vergonya admetre-ho, però aquest gràfic em va enganyar al principi. El text i la fletxa al centre del gràfic li atrauen la mirada. Avall és amunt en aquest gràfic. Potser no és mentida: les dades estan allà. Però, he de pensar que està pensat per enganyar. Si encara no l'heu vist, el zero a l'eix y està a la part superior. Per tant, a mesura que les dades baixen, això significa més morts. Aquest gràfic mostra el nombre d'assassinats amb armes de foc augmentat després del 2005, indicat per la tendència en marxa baix.

Mostra les dades massa simplificades

Un exemple de simplificació excessiva de les dades es pot veure quan els analistes aprofiten la paradoxa de Simpson. Aquest és un fenomen que es produeix quan les dades agregades semblen demostrar una conclusió diferent que quan es separen en subconjunts. És fàcil caure en aquesta trampa quan es miren percentatges agregats d'alt nivell. Una de les il·lustracions més clares de la Paradoxa de Simpson a l'obra està relacionada amb mitjanes de bateig.  

Aquí veiem que Derek Jeter té una mitjana de bateig general més alta que David Justice durant les temporades 1995 i 1996. La paradoxa arriba quan ens adonem que la Justícia va superar a Jeter en la mitjana de bateig dels dos anys. Si us fixeu amb atenció, té sentit quan us adoneu que Jeter va tenir aproximadament 4 vegades més al bat (el denominador) el 1996 amb una mitjana de 007 més baixa el 1996. Mentre que, Justice tenia aproximadament 10 vegades el nombre de bateigs amb només . 003 mitjana més alta el 1995.

La presentació sembla senzilla, però la Paradoxa de Simpson, amb coneixement o sense voler, ha portat a conclusions incorrectes. Recentment, hi ha hagut exemples de la paradoxa de Simpson a les notícies i a les xarxes socials relacionats amb les vacunes i la mortalitat per COVID. Un traçar mostra un gràfic de línies que compara les taxes de mortalitat entre vacunades i no vacunades per a persones de 10 a 59 anys. El gràfic demostra que els no vacunats tenen una taxa de mortalitat més baixa. Que està passant aquí?  

El problema és similar al que veiem amb les mitjanes de bateig. El denominador en aquest cas és el nombre d'individus de cada grup d'edat. El gràfic combina grups que tenen diferents resultats. Si mirem el grup d'edat més gran, 50-59, per separat, veiem que els vacunats van millor. Així mateix, si mirem el 10-49, també veiem que els vacunats van millor. Paradoxalment, quan es mira el conjunt combinat, els no vacunats semblen tenir un pitjor resultat. D'aquesta manera, podeu argumentar arguments oposats utilitzant les dades.

Les dades són esbiaixades

Les dades no sempre es poden confiar. Fins i tot a la comunitat científica, més d'un terç dels investigadors enquestats ho van admetre "pràctiques de recerca qüestionables".  Un altre investigació detectiu de frau diu: "És molt probable que hi hagi molt més frau a les dades: taules, gràfics de línies, dades de seqüenciació [– del que realment estem descobrint]. Qualsevol persona asseguda a la taula de la cuina pot posar alguns números en un full de càlcul i fer un gràfic de línies que sembli convincent".

Això primer exemple sembla que algú ha fet això. No dic que això sigui frau, però com a enquesta, simplement no genera cap dada que contribueixi a una decisió informada. Sembla que l'enquesta va preguntar als enquestats sobre la seva opinió sobre el cafè de la benzinera o algun altre esdeveniment actual rellevant. 

  1. magnífic 
  2. Gran
  3. Molt bo 

He retallat la publicació de Twitter per eliminar les referències a la part culpable, però aquest és el gràfic complet dels resultats finals de l'enquesta. Enquestes com aquesta no són estranyes. Òbviament, qualsevol gràfic creat a partir de les dades resultants de les respostes mostrarà que el cafè en qüestió no s'ha de perdre.  

El problema és que si us haguessin fet aquesta enquesta i no trobeu una resposta que s'ajusti al vostre pensament, us ometeu l'enquesta. Aquest pot ser un exemple extrem de com es poden crear dades poc fiables. Un mal disseny de l'enquesta, però, pot donar lloc a menys respostes i els que responen només tenen una opinió, només és qüestió de grau. Les dades són esbiaixades.

Aquest segon exemple de biaix de dades és dels fitxers de "Els pitjors gràfics enganyosos de la COVID-19". 

De nou, això és subtil i no del tot obvi. El gràfic de barres mostra una disminució suau, gairebé massa suau, del percentatge de casos positius de COVID-19 al llarg del temps per a un comtat de Florida. Podríeu arribar fàcilment a la conclusió que els casos estan disminuint. Això és genial, la visualització representa amb precisió les dades. El problema està en les dades. Per tant, és un biaix més insidios perquè no el pots veure. Està incorporat a les dades. Les preguntes que heu de fer, inclouen, qui s'està provant? En altres paraules, quin és el denominador, o la població de la qual estem mirant un percentatge. El supòsit és que es tracta de tota la població, o almenys, d'una mostra representativa.

Tanmateix, durant aquest període, en aquesta comarca, només es feien proves a un nombre limitat de persones. Havien de tenir símptomes semblants a la COVID o havien viatjat recentment a un país de la llista de punts calents. A més, els resultats confonen el fet que es va comptar cada prova positiva i cada prova negativa es va comptar. Normalment, quan un individu donava positiu, tornava a provar-se quan el virus hagués fet el seu curs i donava negatiu. Així, en cert sentit, per a cada cas positiu, hi ha un cas de prova negatiu que l'anul·la. La gran majoria de les proves són negatives i es van comptar les proves negatives de cada individu. Podeu veure com les dades són esbiaixades i no són especialment útils per prendre decisions. 

L'entrada i l'entrenament de l'IA és esbiaixat

Hi ha almenys dues maneres en què la IA pot conduir a resultats esbiaixats: començant amb dades esbiaixades o utilitzant algorismes esbiaixats per processar dades vàlides.  

Entrada esbiaixada

Molts de nosaltres tenim la impressió que es pot confiar en la intel·ligència artificial per analitzar els números, aplicar els seus algorismes i escopir una anàlisi fiable de les dades. La intel·ligència artificial només pot ser tan intel·ligent com s'entrena. Si les dades sobre les quals s'entrena són imperfectes, tampoc es podran confiar en els resultats o les conclusions. De manera similar al cas anterior del biaix de l'enquesta, hi ha diverses maneres en què les dades poden ser tendenciat en aprenentatge automàtic:.  

  • Biaix de mostra: el conjunt de dades d'entrenament no és representatiu de tota la població.
  • Biaix d'exclusió: de vegades, el que semblen ser atípics són realment vàlids, o quan tracem la línia sobre què incloure (codis postals, dates, etc.).
  • Biaix de mesura: la convenció és mesurar sempre des del centre i la part inferior del menisc, per exemple, quan es mesuren líquids en matràs aforats o tubs d'assaig (excepte el mercuri).
  • Biaix de record: quan la investigació depèn de la memòria dels participants.
  • Biaix de l'observador: els científics, com tots els humans, estan més inclinats a veure què esperen veure.
  • Biaix sexista i racista: el sexe o la raça poden estar sobre-representats o poc representats.  
  • Biaix associatiu: les dades reforcen els estereotips

Perquè la IA torni resultats fiables, les seves dades d'entrenament han de representar el món real. Com ja hem comentat en un article anterior del blog, la preparació de dades és fonamental i com qualsevol altre projecte de dades. Les dades poc fiables poden ensenyar als sistemes d'aprenentatge automàtic la lliçó equivocada i donaran lloc a una conclusió incorrecta. Dit això, "Totes les dades estan esbiaixades. Això no és paranoia. Això és un fet". – Dr. Sanjiv M. Narayan, Escola de Medicina de la Universitat de Stanford.

L'ús de dades esbiaixades per a l'entrenament ha provocat una sèrie de fracassos notables de la IA. (Exemples aquí i aquí, recerca aquí..)

Algorismes esbiaixats

Un algorisme és un conjunt de regles que accepten una entrada i crea sortida per respondre a un problema empresarial. Sovint són arbres de decisió ben definits. Els algorismes semblen caixes negres. Ningú està segur de com funcionen, sovint, ni tan sols empreses que els utilitzen. Ah, i sovint són propietaris. La seva naturalesa misteriosa i complexa és una de les raons per les quals els algorismes esbiaixats són tan insidiosos. . 

Penseu en algorismes d'IA en medicina, recursos humans o finances que tinguin en compte la raça. Si la raça és un factor, l'algoritme no pot ser cec racialment. Això no és teòric. S'han descobert problemes com aquests al món real mitjançant la IA contractació, viatge compartit, sol·licitud de préstecs, i trasplantaments de ronyó

La conclusió és que si les vostres dades o algorismes són dolents, pitjors que inútils, poden ser perillosos. Hi ha una cosa com un "auditoria algorítmica”. L'objectiu és ajudar les organitzacions a identificar els riscos potencials relacionats amb l'algorisme pel que fa a l'equitat, el biaix i la discriminació. En una altra part, Facebook està utilitzant la IA per combatre els biaixos de la IA.

La gent està esbiaixada

Tenim persones als dos costats de l'equació. La gent està preparant l'anàlisi i la gent està rebent la informació. Hi ha investigadors i hi ha lectors. En qualsevol comunicació, hi pot haver problemes en la transmissió o recepció.

Prengui el temps, per exemple. Què significa "possibilitat de pluja"? En primer lloc, què volen dir els meteoròlegs quan diuen que hi ha possibilitats de pluja? Segons el govern dels EUA Servei Meteorològic Nacional, una possibilitat de pluja, o el que anomenen Probabilitat de Precipitació (PoP), és un dels elements menys coneguts en una previsió meteorològica. Té una definició estàndard: "La probabilitat de precipitació és simplement una probabilitat estadística de 0.01 polzades [sic] de [sic] més de precipitació en una àrea determinada en l'àrea de previsió donada en el període de temps especificat". L'"àrea determinada" és l'àrea de previsió, o broadzona de repartiment. Això vol dir que la probabilitat oficial de precipitació depèn de la confiança que plourà en algun lloc de la zona i del percentatge de la zona que es mullarà. En altres paraules, si el meteoròleg confia que plourà a l'àrea de previsió (confiança = 100%), aleshores el PoP representa la part de l'àrea que rebrà pluja.  

carrer de París; Dia plujós,Gustave Caillebotte (1848-1894) Domini Públic de l'Institut d'Art de Chicago

La probabilitat de pluja depèn tant de la confiança com de la zona. Jo no sabia que. Sospito que altres persones tampoc ho saben. Al voltant del 75% de la població no entén amb precisió com es calcula el PoP o què vol representar. Aleshores, ens enganyen o és un problema de percepció? Diguem-ne percepció de precipitació. Culpem el meteorològic? Per ser justos, n'hi ha confusió també entre els meteorològics. En un estudi, el 43% dels meteoròlegs enquestats va dir que hi ha molt poca coherència en la definició de PoP.

L'anàlisi en si és esbiaixada

Dels cinc factors que influeixen, l'anàlisi en si pot ser el més sorprenent. En la investigació científica que dóna lloc a la publicació d'un article revisat, normalment s'emet una hipòtesi, es defineixen mètodes per provar la hipòtesi, es recullen dades i després s'analitzen les dades. El tipus d'anàlisi que es fa i com es fa està poc valorat en com afecta les conclusions. En a paper publicat a principis d'aquest any (gener de 2022), a l'International Journal of Cancer, els autors van avaluar si els resultats d'assajos controlats aleatoris i estudis observacionals retrospectius. Les seves troballes van concloure que,

En variar les opcions analítiques en la investigació d'efectivitat comparativa, vam generar resultats contraris. Els nostres resultats suggereixen que alguns estudis observacionals retrospectius poden trobar que un tractament millora els resultats dels pacients, mentre que un altre estudi similar pot trobar que no, simplement basant-se en opcions analítiques.

En el passat, quan llegiu un article d'una revista científica, si sou com jo, potser haureu pensat que els resultats o les conclusions es refereixen a les dades. Ara, sembla que els resultats, o si es confirma o refuta la hipòtesi inicial, també poden dependre del mètode d'anàlisi.

Un altre estudiar trobat resultats similars. L'article, Molts analistes, un conjunt de dades: fer transparent com les variacions en les opcions analítiques afecten els resultats, descriu com van donar el mateix conjunt de dades a 29 equips diferents per analitzar-los. L'anàlisi de dades sovint es considera un procés estricte i ben definit que condueix a una única conclusió.  

Malgrat les protestes dels metodòlegs, és fàcil passar per alt el fet que els resultats poden dependre de l'estratègia analítica escollida, que a si mateixa està impregnada de teoria, supòsits i punts d'elecció. En molts casos, hi ha molts enfocaments raonables (i molts poc raonables) per avaluar les dades relacionades amb una qüestió d'investigació.

Els investigadors van obtenir l'anàlisi de les dades i van arribar a la conclusió que totes les investigacions inclouen decisions subjectives, inclòs quin tipus d'anàlisi utilitzar, que poden afectar el resultat final de l'estudi.

La recomanació d'un altre investigador qui va analitzar l'estudi anterior és ser prudent quan s'utilitza un sol document per prendre decisions o extreure conclusions.

Abordar el biaix a Analytics

Això només vol ser un conte d'advertència. El coneixement ens pot protegir de les estafes. Com més conscients dels possibles mètodes que pot utilitzar un escàner per enganyar-nos, menys probabilitats tindrem de ser atrapats, per exemple, per, per exemple, la mala direcció d'un carterista o la conversa tranquil·la d'una jugada de Ponzi. Així és amb la comprensió i el reconeixement dels biaixos potencials que afecten les nostres anàlisis. Si som conscients de les influències potencials, podríem presentar millor la història i, finalment, prendre millors decisions.  

BI/Analíticasense categoria
Desglosseu els vostres coneixements: una guia per a la neteja de primavera d'Analytics

Desglosseu els vostres coneixements: una guia per a la neteja de primavera d'Analytics

Desordena els teus coneixements Una guia per a la neteja de primavera d'Analytics L'any nou comença amb una explosió; Els informes de final d'any es creen i s'examinen, i després tothom s'estableix en un calendari de treball coherent. A mesura que els dies s'allarguen i els arbres i les flors floreixen,...

Més...