Teasers
Quando vimos os dados pela primeira vez?
- Meados do século XX
- Como sucessor do Vulcano, Spock
- 18,000 BC
- Quem sabe?
Até onde podemos ir na história descoberta, encontramos humanos usando dados. Curiosamente, os dados até precedem os números escritos. Alguns dos primeiros exemplos de armazenamento de dados são de cerca de 18,000 aC, onde nossos ancestrais no continente africano usavam marcas em bastões como forma de contabilidade. As respostas 2 e 4 também serão aceitas. Foi em meados do século XX, porém, que o Business Intelligence foi definido pela primeira vez como o entendemos hoje. O BI não se tornou difundido até quase a virada do século 21.
Os benefícios da qualidade dos dados são óbvios.
- Confiança. Os usuários confiarão melhor nos dados. “75% dos executivos não confiam em seus dados"
- Melhores decisões. Você poderá usar análises em relação aos dados para tomar decisões mais inteligentes. Qualidade dos dados é um dos dois maiores desafios enfrentados pelas organizações que adotam a IA. (O outro é o conjunto de habilidades da equipe.)
- Vantagem competitiva. A qualidade dos dados afeta a eficiência operacional, o atendimento ao cliente, o marketing e o resultado final – receita.
- RESULTADOS. A qualidade dos dados está fortemente ligada aos negócios sucesso.
6 Elementos-chave da qualidade dos dados
Se você não pode confiar em seus dados, como pode respeitar seus conselhos?
Hoje, a qualidade dos dados é fundamental para a validade das decisões que as empresas tomam com ferramentas de BI, análises, aprendizado de máquina e inteligência artificial. Na sua forma mais simples, a qualidade dos dados são dados válidos e completos. Você pode ter visto os problemas de qualidade de dados nas manchetes:
- Melhoria de dados COVID-19 do CDC – “Ao longo da pandemia, o CDC vem melhorando a pontualidade, integridade e qualidade dos dados críticos para a resposta.”
- Lixo dentro, lixo fora; vigilância da cidade encontra padrão preocupante de qualidade de dados não confiável – “Um novo relatório do inspetor geral interino de [Chicago] diz que “problemas de qualidade de dados” afetam a “objetividade, utilidade e integridade” das informações usadas para alocar recursos, medir o desempenho dos funcionários e monitorar uma série de programas.”
- GAO encontra problemas de qualidade de dados durante o lançamento do EHR da VA – “O VA não garantiu a qualidade dos dados migrados para seu novo sistema Cerner EHR.”
De certa forma – mesmo na terceira década de Business Intelligence – alcançar e manter a qualidade dos dados é ainda mais difícil. Alguns dos desafios que contribuem para a luta constante de manter a qualidade dos dados incluem:
- Fusões e aquisições que tentam reunir sistemas, processos, ferramentas e dados díspares de várias entidades.
- Silos internos de dados sem os padrões para conciliar a integração de dados.
- O armazenamento barato facilitou a captura e a retenção de grandes quantidades de dados. Capturamos mais dados do que podemos analisar.
- A complexidade dos sistemas de dados aumentou. Há mais pontos de contato entre o sistema de registro onde os dados são inseridos e o ponto de consumo, seja o data warehouse ou a nuvem.
De que aspectos dos dados estamos falando? Quais propriedades dos dados contribuem para sua qualidade? Há seis elementos que contribuem para a qualidade dos dados. Cada uma dessas são disciplinas inteiras.
- oportunidade
- Os dados estão prontos e utilizáveis quando necessário.
- Os dados estão disponíveis para relatórios de fim de mês na primeira semana do mês seguinte, por exemplo.
- Validade
- Os dados têm o tipo de dados correto no banco de dados. Texto é texto, datas são datas e números são números.
- Os valores estão dentro dos intervalos esperados. Por exemplo, enquanto 212 graus Fahrenheit é uma temperatura real mensurável, não é um valor válido para uma temperatura humana.
- Os valores têm o formato correto. 1.000000 não tem o mesmo significado que 1.
- Consistência
- Os dados são internamente consistentes
- Não há duplicatas de registros
- Integridade
- As relações entre as tabelas são confiáveis.
- Não é alterado sem querer. Os valores podem ser rastreados até suas origens.
- plenitude
- Não há “buracos” nos dados. Todos os elementos de um registro têm valores.
- Não há valores NULL.
- Precisão
- Os dados no ambiente de relatórios ou analíticos – o data warehouse, seja no local ou na nuvem – refletem os sistemas de origem, ou sistemas ou registro
- Os dados são de fontes verificáveis.
Concordamos, então, que o desafio da qualidade dos dados é tão antigo quanto os próprios dados, o problema é onipresente e vital para ser resolvido. Então, o que fazemos sobre isso? Considere seu programa de qualidade de dados como um projeto de longo prazo e sem fim.
A qualidade dos dados representa de perto a precisão com que esses dados representam a realidade. Para ser honesto, alguns dados são mais importantes do que outros. Saiba quais dados são críticos para decisões de negócios sólidas e para o sucesso da organização. Comece por aí. Concentre-se nesses dados.
Como Data Quality 101, este artigo é uma introdução de nível de calouro ao tópico: o histórico, os eventos atuais, o desafio, por que é um problema e uma visão geral de alto nível de como abordar a qualidade de dados em uma organização. Informe-nos se estiver interessado em aprofundar qualquer um desses tópicos em um artigo de nível 200 ou de pós-graduação. Em caso afirmativo, nos aprofundaremos nos detalhes nos próximos meses.