Mentira analítica

by Agosto 31, 2022BI/Analíticacomentarios 0

Mentira analítica

O sesgo da análise

 

Mark Twain dixo de forma discutible algo así como: "Hai tres tipos de mentiras: mentiras, mentiras malditas e analítica. " 

Damos por feito que a analítica nos proporciona información útil e útil. O que moitas veces non nos damos conta é como os nosos propios prexuízos e os dos demais inflúen nas respostas que nos dan ata o software e os sistemas máis sofisticados. Ás veces, podemos ser manipulados de forma deshonesta, pero, máis comúnmente, poden ser prexuízos sutís e inconscientes os que se introducen nas nosas análises. A motivación detrás da análise tendenciosa é múltiple. Ás veces, os resultados imparciais que esperamos da ciencia están influenciados por 1) eleccións sutís sobre como se presentan os datos, 2) datos inconsistentes ou non representativos, 3) como se adestran os sistemas de IA, 4) a ignorancia, a incompetencia dos investigadores ou outros que o intentan. para contar a historia, 5) a propia análise.    

A presentación é tendenciosa

Algunhas das mentiras son máis fáciles de detectar que outras. Cando sabes que buscar podes detectar máis facilmente o potencial gráficos e cadros enganosos. 

Hai polo menos cinco formas de mostrar datos de forma enganosa: 1) Mostrar un conxunto de datos limitado, 2). Mostrar correlacións non relacionadas, 3) Mostrar datos de forma inexacta, 4) Mostrar datos de forma non convencional ou 5). Mostrar datos simplificados en exceso.

Mostrar un conxunto de datos limitado

A limitación dos datos ou a selección manual dunha sección non aleatoria dos datos adoita contar unha historia que non é coherente co panorama xeral. A mostraxe incorrecta, ou recollida de cereixas, é cando o analista usa unha mostra non representativa para representar un grupo máis grande. 

En marzo 2020, Departamento de Saúde Pública de Xeorxia publicou este gráfico como parte do seu informe diario de situación. En realidade, suscita máis preguntas das que responde.  

Unha das cousas que falta é o contexto. Por exemplo, sería útil saber cal é a porcentaxe de poboación para cada grupo de idade. Outro problema co gráfico circular de aspecto sinxelo son os grupos de idade desiguais. O 0-17 ten 18 anos, o 18-59 ten 42, o 60+ é indefinido, pero ten uns 40 anos. A conclusión, só tendo en conta este gráfico, é que a maioría dos casos atópanse no grupo de idade 18-59 anos. O grupo de idade de máis de 60 anos parece estar menos afectado polos casos de COVID. Pero esta non é toda a historia.

Para comparación, este conxunto de datos diferentes sobre o Sitio web do CDC gráficas de casos de COVID por grupo de idade cos datos adicionais sobre a porcentaxe de poboación dos EUA que se atopa en cada franxa de idade.  

Isto é mellor. Temos máis contexto. Podemos observar que os grupos de idade 18-29, 30-39, 40-49 teñen todos unha porcentaxe de casos superior á porcentaxe do grupo de idade na poboación. Aínda hai algúns grupos de idade desiguais. Por que os 16-17 son un grupo de idade separado? Aínda así, esta non é toda a historia, pero os expertos escribiron columnas, fixeron predicións e mandatos sobre menos que isto. Obviamente, co COVID, son moitas as variables ademais da idade que inciden en contabilizarse como caso positivo: estado de vacinación, dispoñibilidade de probas, número de probas, comorbilidades e moitas outras. O número de casos, en si, proporciona unha imaxe incompleta. A maioría dos expertos tamén analiza o número de mortes, ou as porcentaxes de mortes por cada 100,000 habitantes, ou os casos de mortalidade para ver como afecta a COVID a cada grupo de idade.

Mostrar correlacións non relacionadas

Obviamente, hai un forte correlación entre o gasto estadounidense en ciencia, espazo e tecnoloxía e o número de Suicidios por aforcamento, estrangulamento e asfixia. A correlación é do 99.79%, case unha combinación perfecta.  

Quen, porén, diría que estes están relacionados dalgún xeito ou que un provoca o outro? Hai outros exemplos menos extremos, pero non menos espurios. Hai unha forte correlación similar entre Letters in Winning Word of Scripps National Spelling Bee e Número de persoas mortas por arañas velenosas. ¿Coincidencia? Ti decides.

Outra forma de trazar estes datos que pode ser menos enganoso sería incluír cero nos dous eixes Y.

Mostrar datos de forma incorrecta

de Como mostrar datos mal, o estado estadounidense de Xeorxia presentou os 5 principais condados co maior número de casos confirmados de COVID-19.

Parece lexítimo, non? Hai claramente unha tendencia á baixa dos casos confirmados de COVID-19. Podes ler o eixe X? O eixe X representa o tempo. Normalmente, as datas aumentarán de esquerda a dereita. Aquí, vemos unha pequena viaxe no tempo no eixe X: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

Agardar? Que? O eixe X non está ordenado cronoloxicamente. Entón, por moi boa que pareza a tendencia, non podemos sacar ningunha conclusión. Se se ordenan as datas, as barras para o número de casos mostran máis un patrón de dente de serra que calquera tipo de tendencia.

A solución sinxela aquí é ordenar as datas como o fai un calendario.

Mostrar datos de forma non convencional

Estamos todos ocupados. O noso cerebro ensinounos a facer xuízos rápidos baseados en suposicións que foron consistentes no noso mundo. Por exemplo, todos os gráficos que vin mostran os eixes x e y que se atopan en cero ou os valores máis baixos. Mirando este gráfico brevemente, que conclusións pode sacar sobre o efecto da Florida "Mantén a túa lei básica.”? Dáme vergoña de admitilo, pero este gráfico enganoume ao principio. O teu ollo está convenientemente atraído polo texto e a frecha no medio do gráfico. Abaixo está arriba neste gráfico. Quizais non sexa mentira: os datos están aí. Pero, teño que pensar que é para enganar. Se aínda non o viches, o cero no eixe Y está na parte superior. Entón, a medida que os datos baixan, iso significa máis mortes. Este gráfico mostra o número de asasinatos con armas de fogo aumento da despois de 2005, indicado pola tendencia que vai abaixo.

Mostrar os datos simplificados en exceso

Un exemplo de simplificación excesiva dos datos pódese ver cando os analistas aproveitan o Paradoxo de Simpson. Este é un fenómeno que ocorre cando os datos agregados parecen demostrar unha conclusión diferente que cando se separan en subconxuntos. Esta trampa é fácil de caer cando se miran as porcentaxes agregadas de alto nivel. Unha das ilustracións máis claras do Paradoxo de Simpson no traballo está relacionada medias de bateo.  

Aquí vemos que Derek Jeter ten unha media de bateo xeral máis alta que David Justice para as tempadas de 1995 e 1996. O paradoxo chega cando nos damos conta de que Justice superou a Jeter na media de bateo dos dous anos. Se miras con atención, ten sentido cando te das conta de que Jeter tiña aproximadamente 4 veces máis ao bate (o denominador) en 1996 cunha media inferior de .007 en 1996. Mentres que, Justice tiña aproximadamente 10 veces o número de turnos ao bate con só . 003 media superior en 1995.

A presentación parece sinxela, pero o Paradoxo de Simpson, de forma consciente ou sen querelo, levou a conclusións incorrectas. Recentemente, houbo exemplos do paradoxo de Simpson nas noticias e nas redes sociais relacionados coas vacinas e a mortalidade por COVID. Un trazar mostra un gráfico de liñas que compara as taxas de mortalidade entre as persoas vacinadas e non vacinadas en persoas de 10 a 59 anos. O gráfico demostra que os non vacinados teñen unha taxa de mortalidade máis baixa. Que está pasando aquí?  

O problema é semellante ao que vemos coas medias de bateo. O denominador neste caso é o número de individuos en cada grupo de idade. O gráfico combina grupos que teñen diferentes resultados. Se observamos o grupo de idade maior, 50-59, por separado, vemos que os vacinados van mellor. Así mesmo, se observamos o 10-49, tamén vemos que os vacinados van mellor. Paradoxalmente, ao mirar o conxunto combinado, os non vacinados parecen ter un peor resultado. Deste xeito, podes argumentar argumentos opostos usando os datos.

Os datos son sesgados

Non sempre se pode confiar nos datos. Mesmo na comunidade científica, máis dun terzo dos investigadores enquisados ​​admitiron "prácticas de investigación cuestionables".  Outro detective de fraude de investigación di: "Probablemente haxa moito máis fraude nos datos: táboas, gráficos de liñas, datos de secuenciación [– do que realmente estamos descubrindo]. Calquera persoa sentada na mesa da súa cociña pode poñer algúns números nunha folla de cálculo e facer un gráfico de liñas que pareza convincente".

Este primeiro exemplo parece que alguén fixo iso. Non digo que isto sexa fraude, pero como unha enquisa, simplemente non xera ningún dato que contribúa a unha decisión informada. Parece que a enquisa preguntou aos entrevistados sobre a súa opinión sobre o café da gasolineira ou algún outro acontecemento actual relevante. 

  1. Soberbo 
  2. Grande
  3. Moi bo 

Recortei a publicación de Twitter para eliminar as referencias ao culpable, pero este é o gráfico completo dos resultados finais da enquisa. Enquisas como esta non son raras. Obviamente, calquera gráfico creado a partir dos datos resultantes das respostas mostrará que o café en cuestión non se pode perder.  

O problema é que se che fixeran esta enquisa e non atopases unha resposta que se axuste ao teu pensamento, saltarías a enquisa. Este pode ser un exemplo extremo de como se poden crear datos pouco fiables. Non obstante, un mal deseño da enquisa pode levar a menos respostas e os que responden só teñen unha opinión, é só unha cuestión de grao. Os datos son sesgados.

Este segundo exemplo de sesgo de datos é dos ficheiros de "Os peores gráficos enganosos de COVID-19. " 

De novo, isto é sutil e non completamente obvio. O gráfico de barras mostra un descenso suave, case demasiado suave, na porcentaxe de casos positivos de COVID-19 ao longo do tempo para un condado de Florida. Poderías sacar facilmente a conclusión de que os casos están a diminuír. É xenial, a visualización representa con precisión os datos. O problema está nos datos. Polo tanto, é un prexuízo máis insidioso porque non o podes ver. Está integrado nos datos. As preguntas que debes facer, inclúen, quen se está a probar? Noutras palabras, cal é o denominador, ou a poboación da que estamos mirando unha porcentaxe. O suposto é que se trata de toda a poboación, ou polo menos, dunha mostra representativa.

Non obstante, neste período, nesta comarca, só se realizaron probas a un número limitado de persoas. Tiñan que ter síntomas similares á COVID ou viaxar recentemente a un país da lista de puntos quentes. Ademais, os resultados confunden o feito de que se contou cada proba positiva e cada proba negativa. Normalmente, cando un individuo daba positivo, volvía a probar cando o virus fixera o seu curso e daba negativo. Polo tanto, en certo sentido, para cada caso positivo, hai un caso de proba negativo que o anula. A gran maioría das probas son negativas e contabilizáronse as probas negativas de cada individuo. Podes ver como os datos son sesgados e non son especialmente útiles para tomar decisións. 

A entrada e o adestramento da IA ​​son tendenciosos

Hai polo menos dúas formas nas que a IA pode levar a resultados sesgados: comezando con datos sesgados ou utilizando algoritmos sesgados para procesar datos válidos.  

Entrada sesgada

Moitos de nós temos a impresión de que se pode confiar na IA para analizar os números, aplicar os seus algoritmos e cuspir unha análise fiable dos datos. A intelixencia artificial só pode ser tan intelixente como se adestra. Se os datos sobre os que se adestra son imperfectos, tampouco se poderá fiar dos resultados ou das conclusións. Semellante ao caso anterior do sesgo da enquisa, hai varias formas en que os datos poden ser tendenciosa en aprendizaxe automática:.  

  • Sesgo da mostra: o conxunto de datos de adestramento non é representativo de toda a poboación.
  • Sesgo de exclusión: ás veces o que parecen ser valores atípicos son realmente válidos ou, cando trazamos a liña sobre o que hai que incluír (códigos postales, datas, etc.).
  • Sesgo de medición: a convención é medir sempre desde o centro e a parte inferior do menisco, por exemplo, cando se miden líquidos en matraces aforados ou tubos de ensaio (excepto o mercurio).
  • Sesgo de lembranza: cando a investigación depende da memoria dos participantes.
  • Sesgo do observador: os científicos, como todos os humanos, están máis inclinados a ver o que esperan ver.
  • Prexuízo sexista e racista: o sexo ou a raza poden estar sobre ou subrepresentados.  
  • Sesgo de asociación: os datos reforzan os estereotipos

Para que a IA devolva resultados fiables, os seus datos de adestramento deben representar o mundo real. Como xa comentamos nun artigo anterior do blog, a preparación de datos é fundamental e como calquera outro proxecto de datos. Os datos pouco fiables poden ensinarlles aos sistemas de aprendizaxe automática a lección incorrecta e producirán unha conclusión incorrecta. Dito isto, "Todos os datos están sesgados. Isto non é paranoia. Isto é un feito". – Doutor Sanjiv M. Narayan, Facultade de Medicina da Universidade de Stanford.

O uso de datos sesgados para o adestramento provocou unha serie de fallos notables da IA. (Exemplos aquí aquí, investigación aquí..)

Algoritmos sesgados

Un algoritmo é un conxunto de regras que aceptan unha entrada e crea saída para responder a un problema empresarial. Moitas veces son árbores de decisión ben definidas. Os algoritmos parecen caixas negras. Ninguén está seguro de como funcionan, a miúdo, nin sequera o empresas que os utilizan. Ah, e moitas veces son propietarios. A súa natureza misteriosa e complexa é unha das razóns polas que os algoritmos sesgados son tan insidiosos. . 

Considere os algoritmos de IA en medicina, recursos humanos ou finanzas que teñan en conta a raza. Se a raza é un factor, o algoritmo non pode ser racial cego. Isto non é teórico. Problemas como estes descubríronse no mundo real usando a IA contratación, paseo compartido, solicitude de préstamos, e transplantes de ril

A conclusión é que se os teus datos ou algoritmos son malos, son peores que inútiles, poden ser perigosos. Hai tal cousa como "auditoría algorítmica”. O obxectivo é axudar ás organizacións a identificar os riscos potenciais relacionados co algoritmo en relación coa equidade, o prexuízo e a discriminación. Noutro lugar, Facebook está a usar a IA para combater os prexuízos da IA.

A xente é parcial

Temos persoas nos dous lados da ecuación. A xente está a preparar a análise e a xente está a recibir a información. Hai investigadores e hai lectores. En calquera comunicación, pode haber problemas na transmisión ou recepción.

Tome o tempo, por exemplo. Que significa "probabilidade de choiva"? En primeiro lugar, que queren dicir os meteorólogos cando din que hai posibilidades de choiva? Segundo o goberno dos EUA Servizo Nacional de Meteoroloxía, unha probabilidade de choiva, ou o que eles chaman Probabilidade de Precipitación (PoP), é un dos elementos menos entendidos nunha predición meteorolóxica. Ten unha definición estándar: "A probabilidade de precipitación é simplemente unha probabilidade estatística de 0.01″ polgada [sic] de [sic] máis de precipitación nunha determinada área na área de previsión dada no período de tempo especificado". A "área dada" é a área de previsión, ou broadárea de reparto. Isto significa que a probabilidade oficial de precipitación depende da confianza de que chova nalgún lugar da zona e da porcentaxe da zona que se mollará. Noutras palabras, se o meteorólogo confía en que vai chover na zona de previsión (Confianza = 100%), entón o PoP representa a parte da área que recibirá choiva.  

Rúa París; Día chuvioso,Gustave Caillebotte (1848-1894) Dominio público do Instituto de Arte de Chicago

A probabilidade de choiva depende tanto da confianza como da área. Iso non o sabía. Sospeito que outras persoas tampouco o saben. Ao redor do 75% da poboación non entende con precisión como se calcula o PoP nin o que se quere representar. Entón, estamos a ser enganados, ou é un problema de percepción. Chamémoslle percepción da precipitación. Culpamos ao meteorólogo? Para ser xustos, hai algúns confusión entre os meteorólogos tamén. Nunha inspecciona, o 43% dos meteorólogos enquisados ​​dixo que hai moi pouca coherencia na definición de PoP.

A propia análise é tendenciosa

Dos cinco factores que inflúen, a propia análise pode ser a máis sorprendente. Na investigación científica que dá como resultado a publicación dun artigo revisado, normalmente se formula unha hipótese, defínense métodos para probar a hipótese, recóllense datos e despois analízanse. O tipo de análise que se fai e como se fai está infravalorado na forma en que afecta ás conclusións. Nunha papel publicado a principios deste ano (xaneiro de 2022), no International Journal of Cancer, os autores avaliaron se os resultados de ensaios controlados aleatorios e estudos observacionais retrospectivos. Os seus descubrimentos concluíron que,

Ao variar as opcións analíticas na investigación de eficacia comparativa, xeramos resultados contrarios. Os nosos resultados suxiren que algúns estudos observacionais retrospectivos poden atopar un tratamento que mellora os resultados dos pacientes, mentres que outro estudo similar pode descubrir que non, simplemente baseándose en opcións analíticas.

No pasado, ao ler un artigo de revista científica, se es coma min, quizais pensases que os resultados ou conclusións son todos sobre os datos. Agora, parece que os resultados, ou se a hipótese inicial é confirmada ou refutada, tamén pode depender do método de análise.

Outro estudar atopou resultados similares. O artigo, Moitos analistas, un conxunto de datos: facer transparente como as variacións nas opcións analíticas afectan os resultados, describe como deron o mesmo conxunto de datos a 29 equipos diferentes para que o analizasen. A análise de datos adoita considerarse como un proceso estrito e ben definido que leva a unha única conclusión.  

Malia as reprobacións dos metodólogos, é fácil pasar por alto o feito de que os resultados poden depender da estratexia analítica elixida, que está impregnada de teoría, presupostos e puntos de elección. En moitos casos, hai moitos enfoques razoables (e moitos pouco razoables) para avaliar os datos que se refiren a unha cuestión de investigación.

Os investigadores obtiveron a análise dos datos en multitude e chegaron á conclusión de que todas as investigacións inclúen decisións subxectivas, incluído o tipo de análise a utilizar, que poden afectar o resultado final do estudo.

A recomendación doutro investigador quen analizou o estudo anterior é ser cauteloso á hora de utilizar un só traballo para tomar decisións ou sacar conclusións.

Abordando o sesgo en Analytics

Isto simplemente pretende ser un conto de advertencia. O coñecemento pode protexernos de ser atrapados por estafas. Canto máis consciente dos posibles métodos que un escáner poida usar para enganar, menos probable é que nos enganchen, por exemplo, a mala dirección dun carterista ou a conversación suave dunha obra de Ponzi. Así é coa comprensión e o recoñecemento dos potenciais prexuízos que afectan ás nosas análises. Se somos conscientes das influencias potenciais, quizais poidamos presentar mellor a historia e, finalmente, tomar mellores decisións.  

BI/Analíticasen categoría
Desordena os teus coñecementos: unha guía para a limpeza de primavera de Analytics

Desordena os teus coñecementos: unha guía para a limpeza de primavera de Analytics

Desordena os teus coñecementos Unha guía para a limpeza de primavera de Analytics O novo ano comeza cun estrondo; Os informes de fin de ano son creados e examinados e, a continuación, todos se establecen nun calendario de traballo coherente. A medida que os días son máis longos e as árbores e as flores florecen,...

Le máis