Teasers
Wann haben wir zum ersten Mal Daten gesehen?
- Mitte des zwanzigsten Jahrhunderts
- Als Nachfolger des Vulkaniers Spock
- 18,000 BC
- Wer weiß?
So weit wir in der entdeckten Geschichte zurückgehen können, finden wir Menschen, die Daten verwenden. Interessanterweise gehen Daten sogar vor geschriebenen Zahlen. Einige der frühesten Beispiele für die Speicherung von Daten stammen aus der Zeit um 18,000 v. Chr., als unsere Vorfahren auf dem afrikanischen Kontinent Markierungen auf Stäbchen als eine Form der Buchhaltung verwendeten. Die Antworten 2 und 4 werden ebenfalls akzeptiert. Es war jedoch Mitte des 21. Jahrhunderts, als Business Intelligence erstmals so definiert wurde, wie wir es heute verstehen. Bis fast zur Wende des XNUMX. Jahrhunderts verbreitete sich BI nicht.
Die Vorteile der Datenqualität liegen auf der Hand.
- Vertrauen. Benutzer werden den Daten besser vertrauen. „75 % der Führungskräfte vertrauen ihren Daten nicht"
- Bessere Entscheidungen. Sie können Analysen anhand der Daten verwenden, um klügere Entscheidungen zu treffen. Datenqualität ist eine der beiden größten Herausforderungen für Organisationen, die KI einführen. (Die anderen sind die Fähigkeiten des Personals.)
- Wettbewerbsvorteil. Die Qualität der Daten beeinflusst die betriebliche Effizienz, den Kundenservice, das Marketing und das Endergebnis – den Umsatz.
- Erfolge. Die Datenqualität ist stark mit dem Geschäft verbunden Erfolg.
6 Schlüsselelemente der Datenqualität
Wenn Sie Ihren Daten nicht vertrauen können, wie können Sie dann ihren Rat respektieren?
Heutzutage ist die Qualität der Daten entscheidend für die Gültigkeit von Entscheidungen, die Unternehmen mit BI-Tools, Analysen, maschinellem Lernen und künstlicher Intelligenz treffen. Datenqualität sind im einfachsten Fall Daten, die gültig und vollständig sind. Vielleicht haben Sie die Probleme der Datenqualität in den Schlagzeilen gesehen:
- Verbesserung der COVID-19-Daten von CDC – „Im Laufe der Pandemie hat die CDC die Aktualität, Vollständigkeit und Qualität kritischer Daten für die Reaktion verbessert.“
- Müll rein, Müll raus; City Watchdog findet beunruhigendes Muster unzuverlässiger Datenqualität – „Ein neuer Bericht des amtierenden Generalinspektors [von Chicago] besagt, dass „Datenqualitätsprobleme“ die „Objektivität, Nützlichkeit und Integrität“ der Informationen beeinträchtigen, die zur Zuweisung von Ressourcen, zur Messung der Mitarbeiterleistung und zur Überwachung einer Vielzahl von Programmen verwendet werden.“
- GAO findet Datenqualitätsprobleme während der EHR-Einführung von VA – „Die VA hat die Qualität der Daten, die in ihr neues Cerner EHR-System migriert wurden, nicht sichergestellt.“
In gewisser Weise – sogar bis weit in das dritte Jahrzehnt der Business Intelligence hinein – ist es noch schwieriger, die Qualität der Daten zu erreichen und aufrechtzuerhalten. Einige der Herausforderungen, die zum ständigen Kampf um die Aufrechterhaltung der Datenqualität beitragen, sind:
- Fusionen und Übernahmen, bei denen versucht wird, unterschiedliche Systeme, Prozesse, Tools und Daten mehrerer Einheiten zusammenzuführen.
- Interne Datensilos ohne die Standards, um die Integration von Daten in Einklang zu bringen.
- Günstiger Speicher hat die Erfassung und Aufbewahrung großer Datenmengen vereinfacht. Wir erfassen mehr Daten, als wir analysieren können.
- Die Komplexität von Datensystemen hat zugenommen. Es gibt mehr Berührungspunkte zwischen dem Aufzeichnungssystem, in das Daten eingegeben werden, und dem Verbrauchsort, sei es das Data Warehouse oder die Cloud.
Über welche Aspekte von Daten sprechen wir? Welche Eigenschaften der Daten tragen zu ihrer Qualität bei? Es gibt sechs Elemente, die zur Datenqualität beitragen. Jedes davon sind ganze Disziplinen.
- Pünktlichkeit
- Daten sind bereit und nutzbar, wenn sie benötigt werden.
- Die Daten stehen beispielsweise für das Monatsendreporting innerhalb der ersten Woche des Folgemonats zur Verfügung.
- Gültigkeit
- Die Daten haben den richtigen Datentyp in der Datenbank. Text ist Text, Daten sind Daten und Zahlen sind Zahlen.
- Die Werte liegen innerhalb der erwarteten Bereiche. Während beispielsweise 212 Grad Fahrenheit eine tatsächlich messbare Temperatur ist, ist dies kein gültiger Wert für eine menschliche Temperatur.
- Werte haben das richtige Format. 1.000000 hat nicht die gleiche Bedeutung wie 1.
- Konsistenz
- Die Daten sind intern konsistent
- Es gibt keine Duplikate von Aufzeichnungen
- Integrität
- Beziehungen zwischen Tabellen sind zuverlässig.
- Es wird nicht unbeabsichtigt verändert. Werte können bis zu ihrem Ursprung zurückverfolgt werden.
- Vollständigkeit
- Es gibt keine „Löcher“ in den Daten. Alle Elemente eines Datensatzes haben Werte.
- Es gibt keine NULL-Werte.
- Genauigkeit
- Daten in der Berichts- oder Analyseumgebung – dem Data Warehouse, ob vor Ort oder in der Cloud – spiegeln die Quellsysteme oder Systeme oder Aufzeichnungen wider
- Die Daten stammen aus überprüfbaren Quellen.
Wir sind uns also einig, dass die Herausforderung der Datenqualität so alt ist wie die Daten selbst, das Problem allgegenwärtig und unbedingt zu lösen ist. Also, was tun wir dagegen? Betrachten Sie Ihr Datenqualitätsprogramm als langfristiges, nie endendes Projekt.
Die Qualität der Daten zeigt genau, wie genau diese Daten die Realität darstellen. Um ehrlich zu sein, sind einige Daten wichtiger als andere Daten. Wissen, welche Daten für solide Geschäftsentscheidungen und den Erfolg des Unternehmens entscheidend sind. Beginnen Sie dort. Konzentrieren Sie sich auf diese Daten.
Als Data Quality 101 ist dieser Artikel eine Einführung in das Thema auf Freshman-Niveau: die Geschichte, aktuelle Ereignisse, die Herausforderung, warum es ein Problem ist, und ein allgemeiner Überblick darüber, wie Datenqualität in einer Organisation angegangen werden kann. Lassen Sie uns wissen, wenn Sie daran interessiert sind, einen tieferen Einblick in eines dieser Themen in einem Artikel auf 200- oder Absolventenebene zu erhalten. Wenn ja, werden wir in den kommenden Monaten tiefer in die Einzelheiten eintauchen.