Teasers
¿Cuándo vimos los datos por primera vez?
- mediados del siglo XX
- Como sucesor del Vulcano, Spock
- 18,000 BC
- ¿Quién sabe?
Hasta donde podemos ir en la historia descubierta, encontramos humanos usando datos. Curiosamente, los datos incluso preceden a los números escritos. Algunos de los primeros ejemplos de almacenamiento de datos datan de alrededor del año 18,000 2 a. C., cuando nuestros antepasados del continente africano usaban marcas en palos como una forma de contabilidad. Las respuestas 4 y 21 también serán aceptadas. Sin embargo, fue a mediados del siglo XX cuando se definió por primera vez Business Intelligence tal como la entendemos hoy. BI no se generalizó hasta casi el cambio de siglo XXI.
Los beneficios de la calidad de los datos son obvios.
- Confía en. Los usuarios confiarán mejor en los datos. “El 75 % de los ejecutivos no confían en sus datos"
- Mejores decisiones. Podrá utilizar análisis contra los datos para tomar decisiones más inteligentes. Calidad de datos es uno de los dos mayores desafíos que enfrentan las organizaciones que adoptan la IA. (El otro son los conjuntos de habilidades del personal).
- Ventaja competitiva. La calidad de los datos afecta la eficiencia operativa, el servicio al cliente, el marketing y el resultado final: los ingresos.
- éxito. La calidad de los datos está fuertemente ligada al negocio comercial.
6 elementos clave de la calidad de los datos
Si no puede confiar en sus datos, ¿cómo puede respetar sus consejos?
Hoy en día, la calidad de los datos es fundamental para la validez de las decisiones que toman las empresas con herramientas de BI, análisis, aprendizaje automático e inteligencia artificial. En su forma más simple, la calidad de los datos son datos válidos y completos. Es posible que haya visto los problemas de calidad de los datos en los titulares:
- Mejora de datos de COVID-19 de los CDC – “En el transcurso de la pandemia, los CDC han mejorado la puntualidad, integridad y calidad de los datos críticos para la respuesta”.
- Basura dentro basura fuera; El organismo de control de la ciudad encuentra un patrón preocupante de calidad de datos poco confiable – “Un nuevo informe del inspector general interino [de Chicago] dice que los “problemas de calidad de los datos” afectan la “objetividad, utilidad e integridad” de la información utilizada para asignar recursos, medir el desempeño de los empleados y monitorear una gran cantidad de programas.
- GAO encuentra problemas de calidad de datos durante la implementación de EHR de VA – “El VA no aseguró la calidad de los datos migrados a su nuevo sistema Cerner EHR”.
De alguna manera, incluso bien entrada la tercera década de Business Intelligence, lograr y mantener la calidad de los datos es aún más difícil. Algunos de los desafíos que contribuyen a la lucha constante por mantener la calidad de los datos incluyen:
- Fusiones y adquisiciones que intentan reunir sistemas, procesos, herramientas y datos dispares de múltiples entidades.
- Silos internos de datos sin los estándares para conciliar la integración de datos.
- El almacenamiento económico ha facilitado la captura y retención de grandes cantidades de datos. Capturamos más datos de los que podemos analizar.
- La complejidad de los sistemas de datos ha crecido. Hay más puntos de contacto entre el sistema de registro donde se ingresan los datos y el punto de consumo, ya sea el almacén de datos o la nube.
¿De qué aspectos de los datos estamos hablando? ¿Qué propiedades de los datos contribuyen a su calidad? Hay seis elementos que contribuyen a la calidad de los datos. Cada una de estas son disciplinas completas.
- Oportunidad
- Los datos están listos y se pueden usar cuando se necesitan.
- Los datos están disponibles para informes de fin de mes dentro de la primera semana del mes siguiente, por ejemplo.
- Validez
- Los datos tienen el tipo de datos correcto en la base de datos. El texto es texto, las fechas son fechas y los números son números.
- Los valores están dentro de los rangos esperados. Por ejemplo, mientras que 212 grados Fahrenheit es una temperatura medible real, no es un valor válido para la temperatura humana.
- Los valores tienen el formato correcto. 1.000000 no tiene el mismo significado que 1.
- Consistencia
- Los datos son internamente consistentes.
- No hay duplicados de registros.
- Integridad
- Las relaciones entre tablas son fiables.
- No se cambia sin querer. Los valores se pueden rastrear hasta sus orígenes.
- Integridad
- No hay "agujeros" en los datos. Todos los elementos de un registro tienen valores.
- No hay valores NULL.
- Exactitud
- Los datos en el entorno analítico o de generación de informes (el almacén de datos, ya sea en las instalaciones o en la nube) reflejan los sistemas de origen, los sistemas o el registro.
- Los datos provienen de fuentes verificables.
Estamos de acuerdo, entonces, en que el desafío de la calidad de los datos es tan antiguo como los datos mismos, el problema es omnipresente y vital para resolver. ¿Entonces qué hacemos al respecto? Considere su programa de calidad de datos como un proyecto interminable a largo plazo.
La calidad de los datos representa de cerca la precisión con la que esos datos representan la realidad. Para ser honesto, algunos datos son más importantes que otros datos. Conozca qué datos son críticos para tomar decisiones comerciales sólidas y el éxito de la organización. Comience allí. Enfócate en esos datos.
Como Data Quality 101, este artículo es una introducción al tema para estudiantes de primer año: la historia, los eventos actuales, el desafío, por qué es un problema y una descripción general de alto nivel sobre cómo abordar la calidad de los datos dentro de una organización. Háganos saber si está interesado en profundizar en cualquiera de estos temas en un artículo de nivel 200 o de posgrado. Si es así, profundizaremos en los detalles en los próximos meses.