Mentira analítica

by 31 de Agosto, 2022BI/Analítica0 comentarios

Mentira analítica

El sesgo del análisis

 

Mark Twain discutiblemente dijo algo como: "Hay tres tipos de mentiras: mentiras, malditas mentiras y mentiras". Analytics." 

Damos por sentado que el análisis nos brinda información útil y procesable. Lo que a menudo no nos damos cuenta es cómo nuestros propios sesgos y los de los demás influyen en las respuestas que nos dan incluso los sistemas y software más sofisticados. A veces, podemos ser manipulados de manera deshonesta, pero, más comúnmente, pueden ser sesgos sutiles e inconscientes que se infiltran en nuestro análisis. La motivación detrás del análisis sesgado es múltiple. A veces, los resultados imparciales que esperamos de la ciencia están influenciados por 1) elecciones sutiles en cómo se presentan los datos, 2) datos inconsistentes o no representativos, 3) cómo se entrenan los sistemas de IA, 4) la ignorancia, la incompetencia de los investigadores u otros que intentan contar la historia, 5) el propio análisis.    

La presentación está sesgada

Algunas de las mentiras son más fáciles de detectar que otras. Cuando sabe qué buscar, puede detectar más fácilmente posibles gráficos y tablas engañosas. 

Hay por lo menos cinco formas de mostrar datos de forma engañosa: 1) Mostrar un conjunto de datos limitado, 2). Mostrar correlaciones no relacionadas, 3) Mostrar datos de forma imprecisa, 4) Mostrar datos de forma no convencional, o 5). Mostrar datos simplificados en exceso.

Mostrar un conjunto de datos limitado

Limitar los datos o seleccionar a mano una sección no aleatoria de los datos a menudo puede contar una historia que no es consistente con el panorama general. El muestreo incorrecto, o selección de cerezas, es cuando el analista usa una muestra no representativa para representar a un grupo más grande. 

En marzo de 2020, Departamento de Salud Pública de Georgia publicó este gráfico como parte de su informe de estado diario. En realidad plantea más preguntas de las que responde.  

Una de las cosas que falta es el contexto. Por ejemplo, sería útil saber cuál es el porcentaje de la población para cada grupo de edad. Otro problema con el gráfico circular de aspecto simple son los grupos de edad desiguales. El 0-17 tiene 18 años, 18-59 tiene 42, 60+ es abierto, pero tiene alrededor de 40 años. La conclusión, dado solo este cuadro, es que la mayoría de los casos se encuentran en el grupo de edad de 18 a 59 años. El grupo de edad de más de 60 años parece verse menos afectado por los casos de COVID. Pero esta no es toda la historia.

A modo de comparación, este conjunto de datos diferente en el sitio web de los CDC grafica los casos de COVID por grupo de edad con los datos adicionales sobre el porcentaje de la población de EE. UU. que se encuentra en cada rango de edad.  

Esta es mejor. Tenemos más contexto. Podemos ver que los grupos de edad 18-29, 30-39, 40-49 tienen un mayor porcentaje de casos que el porcentaje del grupo de edad en la población. Todavía hay algunos grupos de edad desiguales. ¿Por qué 16-17 es un grupo de edad separado? Aún así, esta no es toda la historia, pero los expertos han escrito columnas, hecho predicciones y mandatos sobre menos que esto. Evidentemente, con el COVID hay muchas variables además de la edad que inciden en ser contado como caso positivo: estado de vacunación, disponibilidad de pruebas, número de pruebas, comorbilidades y muchas otras. El número de casos, en sí mismo, proporciona una imagen incompleta. La mayoría de los expertos también analizan el Número de muertes, o los porcentajes de muertes por cada 100,000 XNUMX habitantes, o las muertes por casos para ver cómo COVID afecta a cada grupo de edad.

Mostrar correlaciones no relacionadas

Obviamente, hay un fuerte correlación entre el gasto estadounidense en ciencia, espacio y tecnología y el número de suicidios por ahorcamiento, estrangulamiento y asfixia. La correlación es del 99.79 %, casi una coincidencia perfecta.  

Sin embargo, ¿quién argumentaría que estos están relacionados de alguna manera, o que uno causa al otro? Hay otros ejemplos menos extremos, pero no menos espurios. Existe una fuerte correlación similar entre las letras en Winning Word of Scripps National Spelling Bee y el número de personas muertas por arañas venenosas. ¿Coincidencia? Tú decides.

Otra forma de graficar estos datos que puede ser menos engañosa sería incluir cero en ambos ejes Y.

Mostrar datos de forma incorrecta

Desde Cómo mostrar mal los datos, el estado estadounidense de Georgia presentó los 5 condados principales con el mayor número de casos confirmados de COVID-19.

Parece legítimo, ¿verdad? Claramente hay una tendencia a la baja de los casos confirmados de COVID-19. ¿Puedes leer el eje X? El eje X representa el tiempo. Por lo general, las fechas aumentarán de izquierda a derecha. Aquí, vemos un pequeño viaje en el tiempo en el eje X: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

¿Esperar? ¿Qué? El eje X no está ordenado cronológicamente. Entonces, por muy buena que parezca la tendencia, no podemos sacar ninguna conclusión. Si se ordenan las fechas, las barras para el número de casos muestran más un patrón de diente de sierra que cualquier tipo de tendencia.

La solución fácil aquí es ordenar las fechas como lo hace un calendario.

Mostrar datos de forma no convencional

Todos estamos ocupados. Nuestros cerebros nos han enseñado a hacer juicios rápidos basados ​​en suposiciones que han sido consistentes en nuestro mundo. Por ejemplo, todos los gráficos que he visto muestran que los ejes x e y se encuentran en cero o en los valores más bajos. Mirando este gráfico brevemente, ¿qué conclusiones puede sacar sobre el efecto de la ley de Florida? “Mantén tu ley básica.”? Me avergüenza admitirlo, pero este gráfico me engañó al principio. Su ojo es convenientemente atraído por el texto y la flecha en el medio del gráfico. Abajo es arriba en este gráfico. Puede que no sea una mentira: los datos están bien ahí. Pero, tengo que pensar que está destinado a engañar. Si aún no lo ha visto, el cero en el eje y está en la parte superior. Entonces, a medida que los datos tienden a la baja, eso significa más muertes. Este gráfico muestra que el número de asesinatos con armas de fuego aumentado después de 2005, indicado por la tendencia DE INSCRIPCIÓN.

Mostrar los datos simplificados en exceso

Un ejemplo de simplificación excesiva de los datos se puede ver cuando los analistas aprovechan la paradoja de Simpson. Este es un fenómeno que ocurre cuando los datos agregados parecen demostrar una conclusión diferente que cuando se separan en subconjuntos. Es fácil caer en esta trampa cuando se observan porcentajes agregados de alto nivel. Una de las ilustraciones más claras de la paradoja de Simpson en acción está relacionada con promedios de bateo.  

Aquí vemos que Derek Jeter tiene un promedio de bateo general más alto que David Justice en las temporadas 1995 y 1996. La paradoja surge cuando nos damos cuenta de que Justice superó a Jeter en promedio de bateo en ambos años. Si observa detenidamente, tiene sentido cuando se da cuenta de que Jeter tuvo aproximadamente 4 veces más turnos al bate (el denominador) en 1996 con un promedio .007 más bajo en 1996. Mientras que Justice tuvo aproximadamente 10 veces más turnos al bate en solo . 003 promedio más alto en 1995.

La presentación parece sencilla, pero la paradoja de Simpson, consciente o inconscientemente, ha llevado a conclusiones incorrectas. Recientemente, ha habido ejemplos de la paradoja de Simpson en las noticias y en las redes sociales relacionados con las vacunas y la mortalidad por COVID. Una gráfico muestra un gráfico de líneas que compara las tasas de mortalidad entre vacunados y no vacunados para personas de 10 a 59 años de edad. El gráfico demuestra que los no vacunados tienen consistentemente una tasa de mortalidad más baja. ¿Que está pasando aqui?  

El problema es similar al que vemos con los promedios de bateo. El denominador en este caso es el número de individuos en cada grupo de edad. El gráfico combina grupos que tienen diferentes resultados. Si miramos al grupo de mayor edad, 50-59 años, por separado, vemos que a los vacunados les va mejor. Asimismo, si nos fijamos en 10-49, también vemos que a los vacunados les va mejor. Paradójicamente, al observar el conjunto combinado, los no vacunados parecen tener un peor resultado. De esta manera, puede defender argumentos opuestos utilizando los datos.

Los datos están sesgados

No siempre se puede confiar en los datos. Incluso en la comunidad científica, más de un tercio de los investigadores encuestados admitieron “prácticas de investigación cuestionables”.  Otra detective de fraude de investigación dice: “Es muy probable que haya mucho más fraude en los datos (tablas, gráficos de líneas, datos de secuenciación [– de lo que realmente estamos descubriendo]. Cualquiera que esté sentado en la mesa de su cocina puede poner algunos números en una hoja de cálculo y hacer un gráfico lineal que parezca convincente”.

Esto primero ejemplo parece que alguien hizo exactamente eso. No digo que esto sea un fraude, pero como encuesta, simplemente no genera ningún dato que contribuya a una decisión informada. Parece que la encuesta preguntó a los encuestados sobre su opinión sobre el café de la gasolinera o algún otro evento actual relevante. 

  1. Magnífico 
  2. Muy bueno
  3. Muy bueno 

Recorté la publicación de Twitter para eliminar las referencias a la parte culpable, pero este es el gráfico completo real de los resultados finales de la encuesta. Encuestas como esta no son infrecuentes. Obviamente, cualquier gráfico creado a partir de los datos resultantes de las respuestas mostrará que no se puede perder el café en cuestión.  

El problema es que si le hubieran dado esta encuesta y no encontrara una respuesta que se ajustara a su forma de pensar, se saltaría la encuesta. Este puede ser un ejemplo extremo de cómo se pueden crear datos no confiables. Sin embargo, un diseño deficiente de la encuesta puede dar lugar a menos respuestas y aquellos que responden tienen una sola opinión, es solo una cuestión de grado. Los datos están sesgados.

Este segundo ejemplo de sesgo de datos es de los archivos de “Los peores gráficos engañosos de COVID 19." 

Nuevamente, esto es sutil y no completamente obvio. El gráfico de barras muestra una disminución suave, casi demasiado suave, en el porcentaje de casos positivos de COVID-19 a lo largo del tiempo para un condado de Florida. Fácilmente podría sacar la conclusión de que los casos están disminuyendo. Eso es genial, la visualización representa con precisión los datos. El problema está en los datos. Entonces, es un sesgo más insidioso porque no puedes verlo. Está integrado en los datos. Las preguntas que debe hacer incluyen, ¿quién está siendo evaluado? En otras palabras, cuál es el denominador, o la población de la que estamos viendo un porcentaje. El supuesto es que se trata de toda la población, o al menos, de una muestra representativa.

Sin embargo, durante este período, en este condado, las pruebas solo se realizaron a un número limitado de personas. Tenían que tener síntomas similares a los de COVID o haber viajado recientemente a un país en la lista de puntos críticos. Además, lo que confunde los resultados es el hecho de que cada prueba positiva se contó y cada prueba negativa se contó. Por lo general, cuando un individuo dio positivo, volvería a realizar la prueba cuando el virus había seguido su curso y daría negativo. Entonces, en cierto sentido, para cada caso positivo, hay un caso de prueba negativo que lo cancela. La gran mayoría de las pruebas son negativas y se contaron las pruebas negativas de cada individuo. Puedes ver como los datos están sesgados y no son particularmente útiles para tomar decisiones. 

La entrada y el entrenamiento de la IA están sesgados

Hay al menos dos formas en que la IA puede conducir a resultados sesgados: comenzar con datos sesgados o usar algoritmos sesgados para procesar datos válidos.  

Entrada sesgada

Muchos de nosotros tenemos la impresión de que se puede confiar en la IA para procesar los números, aplicar sus algoritmos y generar un análisis confiable de los datos. La inteligencia artificial solo puede ser tan inteligente como entrenada. Si los datos sobre los que se entrena son imperfectos, tampoco se podrá confiar en los resultados o conclusiones. Al igual que en el caso anterior del sesgo de la encuesta, hay varias formas en que los datos pueden ser parcial en aprendizaje automático:.  

  • Sesgo de la muestra: el conjunto de datos de entrenamiento no es representativo de toda la población.
  • Sesgo de exclusión: a veces, lo que parecen ser valores atípicos en realidad son válidos, o, donde trazamos la línea sobre qué incluir (códigos postales, fechas, etc.).
  • Sesgo de medición: la convención es medir siempre desde el centro y la parte inferior del menisco, por ejemplo, al medir líquidos en matraces volumétricos o tubos de ensayo (excepto mercurio).
  • Sesgo de recuerdo: cuando la investigación depende de la memoria de los participantes.
  • Sesgo del observador: los científicos, como todos los humanos, están más inclinados a ver lo que esperan ver.
  • Sesgo sexista y racista: el sexo o la raza pueden estar representados en exceso o en defecto.  
  • Sesgo de asociación: los datos refuerzan los estereotipos

Para que AI arroje resultados confiables, sus datos de entrenamiento deben representar el mundo real. Como hemos discutido en un artículo de blog anterior, la preparación de datos es crítica y como cualquier otro proyecto de datos. Los datos poco confiables pueden enseñar a los sistemas de aprendizaje automático la lección equivocada y darán como resultado una conclusión incorrecta. Dicho esto, “Todos los datos están sesgados. Esto no es paranoia. Esto es un hecho." – Dr. Sanjiv M. Narayan, Escuela de Medicina de la Universidad de Stanford.

El uso de datos sesgados para el entrenamiento ha llevado a una serie de fallas notables de IA. (Ejemplos esta página y esta página, investigación esta página..)

Algoritmos sesgados

Un algoritmo es un conjunto de reglas que aceptan una entrada y crean una salida para responder a un problema comercial. A menudo son árboles de decisión bien definidos. Los algoritmos se sienten como cajas negras. Nadie está seguro de cómo funcionan, a menudo, ni siquiera el empresas que los utilizan. Ah, y a menudo son propietarios. Su naturaleza misteriosa y compleja es una de las razones por las que los algoritmos sesgados son tan insidiosos. . 

Considere algoritmos de IA en medicina, recursos humanos o finanzas que tengan en cuenta la raza. Si la raza es un factor, el algoritmo no puede ser racialmente ciego. Esto no es teórico. Problemas como estos se han descubierto en el mundo real usando IA en contratación, viaje compartido, solicitud de préstamos y trasplantes de riñón

La conclusión es que si sus datos o algoritmos son malos, peor que inútiles, pueden ser peligrosos. Existe tal cosa como un “auditoría algorítmica.” El objetivo es ayudar a las organizaciones a identificar los riesgos potenciales relacionados con el algoritmo en relación con la equidad, el sesgo y la discriminación. En otra parte, Facebook está utilizando AI para combatir el sesgo en AI.

La gente es parcial

Tenemos personas en ambos lados de la ecuación. La gente está preparando el análisis y la gente está recibiendo la información. Hay investigadores y hay lectores. En cualquier comunicación, puede haber problemas en la transmisión o recepción.

Tome el tiempo, por ejemplo. ¿Qué significa “posibilidad de lluvia”? Primero, ¿qué quieren decir los meteorólogos cuando dicen que hay probabilidad de lluvia? Según el gobierno de EE.UU. Servicio Meteorológico Nacional, la posibilidad de lluvia, o lo que ellos llaman Probabilidad de Precipitación (PoP), es uno de los elementos menos entendidos en un pronóstico del tiempo. Tiene una definición estándar: “La probabilidad de precipitación es simplemente una probabilidad estadística de 0.01″ de pulgada [sic] de [sic] más de precipitación en un área dada en el área de pronóstico dada en el período de tiempo especificado”. El “área dada” es el área pronosticada, o broadárea de lanzamiento. Eso significa que la Probabilidad de Precipitación oficial depende de la confianza de que lloverá en algún lugar del área y el porcentaje del área que se mojará. En otras palabras, si el meteorólogo está seguro de que va a llover en el área de pronóstico (Confianza = 100%), entonces el PoP representa la porción del área que recibirá lluvia.  

Calle París; Día lluvioso,Gustave Caillebotte (1848-1894) Instituto de Arte de Chicago Dominio público

La probabilidad de lluvia depende tanto de la confianza como del área. No sabía eso. Sospecho que otras personas tampoco lo saben. Aproximadamente el 75 % de la población no entiende con precisión cómo se calcula el PoP o qué se supone que representa. Entonces, ¿estamos siendo engañados o se trata de un problema de percepción? Llamémoslo percepción de precipitación. ¿Culpamos al meteorólogo? Para ser justos, hay algunos confusión entre los meteorólogos también. En uno encuesta, el 43% de los meteorólogos encuestados dijo que hay muy poca consistencia en la definición de PoP.

El análisis en sí está sesgado

De los cinco factores que influyen, el análisis en sí puede ser el más sorprendente. En la investigación científica que da como resultado la publicación de un artículo revisado, generalmente se formula una hipótesis sobre una teoría, se definen métodos para probar la hipótesis, se recopilan datos y luego se analizan. El tipo de análisis que se hace y cómo se hace se subestima en cómo afecta las conclusiones. en un publicado a principios de este año (enero de 2022), en el International Journal of Cancer, los autores evaluaron los resultados de ensayos controlados aleatorios y estudios observacionales retrospectivos. Sus hallazgos concluyeron que,

Al variar las opciones analíticas en la investigación de efectividad comparativa, generamos resultados contrarios. Nuestros resultados sugieren que algunos estudios observacionales retrospectivos pueden encontrar que un tratamiento mejora los resultados para los pacientes, mientras que otro estudio similar puede encontrar que no lo hace, simplemente basándose en opciones analíticas.

En el pasado, al leer un artículo de una revista científica, si es como yo, puede haber pensado que los resultados o las conclusiones tienen que ver con los datos. Ahora bien, parece que los resultados, o la confirmación o refutación de la hipótesis inicial, también pueden depender del método de análisis.

Otra estudio encontrado resultados similares. El artículo, Muchos analistas, un conjunto de datos: haciendo transparente cómo las variaciones en las elecciones analíticas afectan los resultados, describe cómo dieron el mismo conjunto de datos a 29 equipos diferentes para analizar. El análisis de datos a menudo se considera un proceso estricto y bien definido que conduce a una única conclusión.  

A pesar de las protestas de los metodólogos, es fácil pasar por alto el hecho de que los resultados pueden depender de la estrategia analítica elegida, que en sí misma está imbuida de teoría, suposiciones y puntos de elección. En muchos casos, existen muchos enfoques razonables (y muchos irrazonables) para evaluar los datos relacionados con una pregunta de investigación.

Los investigadores colaboraron en el análisis de los datos y llegaron a la conclusión de que todas las investigaciones incluyen decisiones subjetivas, incluido qué tipo de análisis utilizar, que pueden afectar el resultado final del estudio.

La recomendación de otro investigador Quien analizó el estudio anterior es ser cauteloso al usar un solo documento para tomar decisiones o sacar conclusiones.

Abordar el sesgo en Analytics

Esto simplemente pretende ser una historia de advertencia. El conocimiento puede protegernos de ser engañados por estafas. Cuanto más conscientes de los posibles métodos que un escáner podría usar para engañarnos, menos probable es que seamos engañados, digamos, por, digamos, la mala dirección de un carterista, o la conversación fluida de un juego de Ponzi. Lo mismo ocurre con la comprensión y el reconocimiento de posibles sesgos que afectan a nuestros análisis. Si somos conscientes de las posibles influencias, podríamos presentar mejor la historia y, en última instancia, tomar mejores decisiones.  

BI/AnalíticaOtros
Por qué Microsoft Excel es la herramienta de análisis número uno
¿Por qué Excel es la herramienta de análisis número uno?

¿Por qué Excel es la herramienta de análisis número uno?

  Es barato y fácil. El software de hoja de cálculo Microsoft Excel probablemente ya esté instalado en la computadora del usuario empresarial. Y hoy en día muchos usuarios han estado expuestos al software de Microsoft Office desde la escuela secundaria o incluso antes. Esta respuesta instintiva en cuanto a...

Leer Más

BI/AnalíticaOtros
Ordene sus conocimientos: una guía para la limpieza de primavera de Analytics

Ordene sus conocimientos: una guía para la limpieza de primavera de Analytics

Ordene sus conocimientos Una guía para el análisis Limpieza de primavera El nuevo año comienza con una explosión; Los informes de fin de año se crean y analizan, y luego todos se adaptan a un horario de trabajo consistente. A medida que los días se hacen más largos y los árboles y las flores florecen,...

Leer Más

BI/AnalíticaOtros
Pizza estilo Nueva York versus pizza estilo Chicago: un delicioso debate

Pizza estilo Nueva York versus pizza estilo Chicago: un delicioso debate

A la hora de satisfacer nuestros antojos, pocas cosas pueden rivalizar con el placer de una porción de pizza bien caliente. El debate entre la pizza al estilo de Nueva York y la de Chicago ha provocado apasionados debates durante décadas. Cada estilo tiene sus propias características únicas y seguidores devotos....

Leer Más

BI/Analítica
Catálogos de análisis: una estrella en ascenso en el ecosistema de análisis

Catálogos de análisis: una estrella en ascenso en el ecosistema de análisis

Introducción Como director de tecnología (CTO), siempre estoy buscando tecnologías emergentes que transformen la forma en que abordamos la analítica. Una de esas tecnologías que me llamó la atención en los últimos años y que es inmensamente prometedora es Analytics...

Leer Más