Du vil have datakvalitet, men du bruger ikke kvalitetsdata

by August 24, 2022BI/Analytik0 kommentarer

Teasers

Hvornår så vi data første gang?

  1. Midten af ​​det tyvende århundrede
  2. Som en efterfølger til Vulcan, Spock
  3. 18,000 BC
  4. Hvem ved?  

Så langt tilbage som vi kan gå i opdaget historie finder vi mennesker ved hjælp af data. Interessant nok går data endda forud for skrevne tal. Nogle af de tidligste eksempler på lagring af data er fra omkring 18,000 f.Kr., hvor vores forfædre på det afrikanske kontinent brugte mærker på pinde som en form for bogføring. Svar 2 og 4 vil også blive accepteret. Det var dog i midten af ​​det tyvende århundrede, hvor Business Intelligence først blev defineret, som vi forstår det i dag. BI blev ikke udbredt før næsten begyndelsen af ​​det 21. århundrede.

Fordelene ved datakvalitet er indlysende. 

  • Stol. Brugere vil bedre have tillid til dataene. “75 % af lederne stoler ikke på deres data"
  • Bedre beslutninger. Du vil være i stand til at bruge analyser mod dataene til at træffe smartere beslutninger.  Datakvalitet er en af ​​de to største udfordringer for organisationer, der anvender AI. (Den anden er personalets færdigheder.)
  • Konkurrencefordel.  Kvaliteten af ​​data påvirker operationel effektivitet, kundeservice, markedsføring og bundlinjen – omsætning.
  • Succes. Datakvalitet er stærkt knyttet til forretning succes.

 

6 nøgleelementer i datakvalitet

Hvis du ikke kan stole på dine data, hvordan kan du så respektere deres råd?

 

I dag er kvaliteten af ​​data afgørende for validiteten af ​​beslutninger, virksomheder træffer med BI-værktøjer, analyser, maskinlæring og kunstig intelligens. På det enkleste er datakvalitet data, som er gyldige og fuldstændige. Du har måske set problemerne med datakvalitet i overskrifterne:

På nogle måder – selv langt ind i det tredje årti med Business Intelligence – er det endnu vanskeligere at opnå og vedligeholde kvaliteten af ​​data. Nogle af de udfordringer, der bidrager til den konstante kamp for at opretholde datakvaliteten, omfatter:

  • Fusioner og opkøb, der forsøger at samle forskellige systemer, processer, værktøjer og data fra flere enheder. 
  • Interne siloer af data uden standarderne til at forene integrationen af ​​data.            
  • Billig opbevaring har gjort indsamling og opbevaring af store mængder data nemmere. Vi fanger flere data, end vi kan analysere.
  • Kompleksiteten af ​​datasystemer er vokset. Der er flere kontaktpunkter mellem registreringssystemet, hvor data indtastes, og forbrugspunktet, hvad enten det er datavarehuset eller skyen.

Hvilke aspekter af data taler vi om? Hvilke egenskaber ved dataene bidrager til deres kvalitet? Der er seks elementer, der bidrager til datakvaliteten. Hver af disse er hele discipliner. 

  • Rettidighed
    • Data er klar og brugbar, når det er nødvendigt.
    • Dataene er f.eks. tilgængelige for slutningen af ​​måneden inden for den første uge i den efterfølgende måned.
  • Gyldighed
    • Dataene har den korrekte datatype i databasen. Tekst er tekst, datoer er datoer og tal er tal.
    • Værdier er inden for de forventede intervaller. For eksempel, mens 212 grader fahrenheit er en faktisk målbar temperatur, er det ikke en gyldig værdi for en menneskelig temperatur.  
    • Værdier har det korrekte format. 1.000000 har ikke samme betydning som 1.
  • Sammenhæng
    • Dataene er internt konsistente
    • Der er ingen dubletter af poster
  • Integritet
    • Relationer mellem tabeller er pålidelige.
    • Det er ikke utilsigtet ændret. Værdier kan spores til deres oprindelse. 
  • Fuldstændighed
    • Der er ingen "huller" i dataene. Alle elementerne i en post har værdier.  
    • Der er ingen NULL-værdier.
  • Nøjagtighed
    • Data i rapporterings- eller analysemiljøet – datavarehuset, uanset om det er on-prem eller i skyen – afspejler kildesystemerne, systemerne eller registreringen
    • Data er fra verificerbare kilder.

Vi er altså enige om, at udfordringen med datakvalitet er lige så gammel som selve data, problemet er allestedsnærværende og afgørende at løse. Så hvad gør vi ved det? Betragt dit datakvalitetsprogram som et langsigtet, uendeligt projekt.  

Kvaliteten af ​​data repræsenterer tæt, hvor nøjagtigt disse data repræsenterer virkeligheden. For at være ærlig er nogle data vigtigere end andre data. Ved, hvilke data der er afgørende for solide forretningsbeslutninger og organisationens succes. Start der. Fokuser på disse data.  

Som Data Quality 101 er denne artikel en introduktion på førsteårsniveau til emnet: historien, aktuelle begivenheder, udfordringen, hvorfor det er et problem og et overblik på højt niveau over, hvordan man adresserer datakvalitet i en organisation. Fortæl os, hvis du er interesseret i at tage et dybere kig på et af disse emner i en artikel på 200-niveau eller kandidatniveau. Hvis ja, vil vi dykke dybere ned i detaljerne i de kommende måneder.