玩笑
我們什麼時候第一次看到數據?
- 二十世紀中葉
- 作為 Vulcan 的繼任者,Spock
- 18,000 BC
- 誰知道?
早在我們發現的歷史中,我們就會發現人類使用數據。 有趣的是,數據甚至先於書面數字。 存儲數據的一些最早的例子是在公元前 18,000 年左右,我們在非洲大陸的祖先使用木棍上的標記作為記賬的一種形式。 答案 2 和 4 也將被接受。 然而,在 21 世紀中葉,商業智能首次被定義為我們今天所理解的。 直到 XNUMX 世紀之交,BI 才開始普及。
數據質量的好處是顯而易見的。
- 信任. 用戶會更好地信任數據。 “75% 的高管不信任他們的數據“
- 更好的決策. 您將能夠對數據使用分析來做出更明智的決策。 資料品質 是採用人工智能的組織面臨的兩大挑戰之一。 (另一個是員工技能。)
- 競爭優勢。 數據質量會影響運營效率、客戶服務、營銷和利潤——收入。
- 成功. 數據質量與業務密切相關 成功.
數據質量的 6 個關鍵要素
如果你不能信任你的數據,你怎麼能尊重它的建議?
如今,數據質量對於企業使用 BI 工具、分析、機器學習和人工智能做出的決策的有效性至關重要。 簡而言之,數據質量是有效且完整的數據。 你可能已經在頭條看到了數據質量的問題:
- CDC 的 COVID-19 數據改進 – “在大流行期間,CDC 一直在提高應對關鍵數據的及時性、完整性和質量。”
- 垃圾進垃圾出; 城市監管機構發現數據質量不可靠的令人不安的模式 – “[芝加哥] 代理監察長的一份新報告稱,“數據質量問題”會影響用於分配資源、衡量員工績效和監控一系列計劃的信息的“客觀性、實用性和完整性”。”
- GAO 在 VA 的 EHR 推出期間發現數據質量問題 – “VA 沒有確保遷移到其新 Cerner EHR 系統的數據質量。”
在某些方面——甚至進入商業智能的第三個十年——實現和維護數據質量甚至更加困難。 導致維護數據質量的持續鬥爭的一些挑戰包括:
- 試圖將來自多個實體的不同系統、流程、工具和數據整合在一起的併購。
- 內部數據孤島沒有標準來協調數據的集成。
- 廉價的存儲使大量數據的捕獲和保留變得更加容易。 我們捕獲的數據多於我們可以分析的數據。
- 數據系統的複雜性已經增加。 在輸入數據的記錄系統和消費點之間有更多的接觸點,無論是數據倉庫還是雲。
我們在談論數據的哪些方面? 數據的哪些屬性有助於其質量? 有六個要素有助於數據質量。 每一個都是完整的學科。
- 及時性
- 數據在需要時已準備就緒並可使用。
- 例如,這些數據可用於下個月的第一周內的月末報告。
- 合法性
- 數據在數據庫中具有正確的數據類型。 文本是文本,日期是日期,數字是數字。
- 值在預期範圍內。 例如,雖然 212 華氏度是實際可測量的溫度,但它不是人體溫度的有效值。
- 值具有正確的格式。 1.000000 與 1 的含義不同。
- 一致性
- 數據內部一致
- 沒有重複的記錄
- 誠信
- 表之間的關係是可靠的。
- 它不是無意中改變的。 價值可以追溯到它們的起源。
- 完備性
- 數據中沒有“漏洞”。 記錄的所有元素都有值。
- 沒有 NULL 值。
- 準確性
- 報告或分析環境中的數據——數據倉庫,無論是在本地還是在雲中——反映了源系統、系統或記錄
- 數據來自可驗證的來源。
因此,我們同意,數據質量的挑戰與數據本身一樣古老,這個問題無處不在,解決問題至關重要。 那麼,我們該怎麼做呢? 將您的數據質量計劃視為一個長期的、永無止境的項目。
數據的質量密切地代表了數據代表現實的準確程度。 老實說,有些數據比其他數據更重要。 了解哪些數據對於可靠的業務決策和組織的成功至關重要。 從那裡開始。 專注於這些數據。
作為數據質量 101,本文是對該主題的新生級別的介紹:歷史、時事、挑戰、為什麼它是一個問題以及如何解決組織內的數據質量問題的高級概述。 如果您有興趣在 200 級或研究生級別的文章中更深入地了解這些主題中的任何一個,請告訴我們。 如果是這樣,我們將在接下來的幾個月中更深入地研究細節。