Trêu chọc
Lần đầu tiên chúng ta nhìn thấy dữ liệu là khi nào?
- Giữa thế kỷ XX
- Là người kế thừa Vulcan, Spock
- 18,000 BC
- Ai biết?
Trong quá khứ, chúng ta thấy con người đang sử dụng dữ liệu. Điều thú vị là dữ liệu thậm chí có trước số được viết. Một số ví dụ sớm nhất về việc lưu trữ dữ liệu là từ khoảng 18,000 năm trước Công nguyên, nơi tổ tiên của chúng ta trên lục địa Châu Phi đã sử dụng dấu trên que như một hình thức lưu trữ sổ sách. Câu trả lời 2 và 4 cũng sẽ được chấp nhận. Tuy nhiên, đó là giữa thế kỷ 21, khi Business Intelligence lần đầu tiên được định nghĩa như chúng ta hiểu ngày nay. BI đã không trở nên phổ biến cho đến gần đầu thế kỷ XNUMX.
Lợi ích của chất lượng dữ liệu là rõ ràng.
- NIỀM TIN. Người dùng sẽ tin tưởng vào dữ liệu hơn. “75% Giám đốc điều hành không tin tưởng vào dữ liệu của họ"
- Quyết định tốt hơn. Bạn sẽ có thể sử dụng phân tích dựa trên dữ liệu để đưa ra quyết định thông minh hơn. Chất lượng dữ liệu là một trong hai thách thức lớn nhất mà các tổ chức áp dụng AI phải đối mặt. (Cái còn lại là bộ kỹ năng của nhân viên.)
- Lợi thế cạnh tranh. Chất lượng của dữ liệu ảnh hưởng đến hiệu quả hoạt động, dịch vụ khách hàng, tiếp thị và điểm mấu chốt - doanh thu.
- Sự thành công. Chất lượng dữ liệu liên quan nhiều đến hoạt động kinh doanh thành công.
6 yếu tố chính của chất lượng dữ liệu
Nếu bạn không thể tin tưởng vào dữ liệu của mình, làm sao bạn có thể tôn trọng lời khuyên của họ?
Ngày nay, chất lượng dữ liệu rất quan trọng đối với hiệu lực của các quyết định mà doanh nghiệp đưa ra với các công cụ BI, phân tích, học máy và trí tuệ nhân tạo. Nói một cách đơn giản nhất, chất lượng dữ liệu là dữ liệu hợp lệ và đầy đủ. Bạn có thể đã thấy các vấn đề về chất lượng dữ liệu trong các tiêu đề:
- Cải tiến dữ liệu COVID-19 của CDC - “Trong quá trình diễn ra đại dịch, CDC đã và đang cải thiện tính kịp thời, đầy đủ và chất lượng của dữ liệu quan trọng để ứng phó.”
- Rác vào, rác ra; cơ quan giám sát thành phố phát hiện ra mô hình khó khăn về chất lượng dữ liệu không đáng tin cậy - “Một báo cáo mới từ quyền tổng thanh tra [Chicago] cho biết“ các vấn đề về chất lượng dữ liệu ”ảnh hưởng đến“ tính khách quan, tiện ích và tính toàn vẹn ”của thông tin được sử dụng để phân bổ nguồn lực, đo lường hiệu suất của nhân viên và giám sát một loạt các chương trình.”
- GAO tìm thấy các vấn đề về chất lượng dữ liệu trong quá trình triển khai EHR của VA - “VA đã không đảm bảo chất lượng dữ liệu được chuyển sang hệ thống Cerner EHR mới của mình.”
Theo một số cách - thậm chí đã bước sang thập kỷ thứ ba của Business Intelligence - việc đạt được và duy trì chất lượng của dữ liệu còn khó hơn. Một số thách thức góp phần vào cuộc đấu tranh không ngừng trong việc duy trì chất lượng dữ liệu bao gồm:
- Hoạt động mua bán và sáp nhập cố gắng tập hợp các hệ thống, quy trình, công cụ và dữ liệu khác nhau từ nhiều thực thể lại với nhau.
- Kho chứa dữ liệu nội bộ không có tiêu chuẩn để điều hòa việc tích hợp dữ liệu.
- Dung lượng lưu trữ giá rẻ đã làm cho việc thu thập và lưu giữ một lượng lớn dữ liệu trở nên dễ dàng hơn. Chúng tôi thu thập nhiều dữ liệu hơn những gì chúng tôi có thể phân tích.
- Sự phức tạp của hệ thống dữ liệu đã phát triển. Có nhiều điểm tiếp xúc hơn giữa hệ thống bản ghi nơi dữ liệu được nhập và điểm tiêu thụ, cho dù đó là kho dữ liệu hay đám mây.
Chúng ta đang nói về những khía cạnh nào của dữ liệu? Những thuộc tính nào của dữ liệu góp phần vào chất lượng của nó? Có sáu yếu tố góp phần vào chất lượng dữ liệu. Mỗi người trong số này là toàn bộ kỷ luật.
- Kịp thời
- Dữ liệu đã sẵn sàng và có thể sử dụng khi cần thiết.
- Ví dụ: dữ liệu có sẵn cho báo cáo cuối tháng trong tuần đầu tiên của tháng tiếp theo.
- Hiệu lực
- Dữ liệu có đúng kiểu dữ liệu trong cơ sở dữ liệu. Văn bản là văn bản, ngày là ngày và số là số.
- Giá trị nằm trong phạm vi mong đợi. Ví dụ, trong khi 212 độ F là nhiệt độ thực tế có thể đo được, nó không phải là giá trị hợp lệ cho nhiệt độ của con người.
- Giá trị có định dạng chính xác. 1.000000 không có cùng nghĩa với 1.
- Tính nhất quán
- Dữ liệu nhất quán nội bộ
- Không có bản sao của hồ sơ
- TÍNH TOÀN VẸN
- Mối quan hệ giữa các bảng là đáng tin cậy.
- Nó không phải là vô tình thay đổi. Giá trị có thể được truy xuất nguồn gốc của chúng.
- đầy đủ
- Không có "lỗ hổng" nào trong dữ liệu. Tất cả các phần tử của một bản ghi đều có giá trị.
- Không có giá trị NULL.
- tính chính xác
- Dữ liệu trong môi trường báo cáo hoặc phân tích - kho dữ liệu, cho dù tại chỗ hay trong đám mây - phản ánh hệ thống nguồn, hệ thống hoặc bản ghi
- Dữ liệu từ các nguồn có thể kiểm chứng.
Do đó, chúng tôi đồng ý rằng thách thức về chất lượng dữ liệu cũng cũ như chính dữ liệu, vấn đề này phổ biến và quan trọng để giải quyết. Vậy thì chúng ta làm gì với nó? Hãy coi chương trình chất lượng dữ liệu của bạn là một dự án dài hạn, không bao giờ kết thúc.
Chất lượng của dữ liệu thể hiện chặt chẽ mức độ chính xác của dữ liệu đó thể hiện thực tế. Thành thật mà nói, một số dữ liệu quan trọng hơn các dữ liệu khác. Biết dữ liệu nào là quan trọng đối với các quyết định kinh doanh vững chắc và sự thành công của tổ chức. Bắt đầu từ đó. Tập trung vào dữ liệu đó.
Với tên Chất lượng dữ liệu 101, bài viết này là phần giới thiệu ở cấp độ Sinh viên năm nhất về chủ đề: lịch sử, các sự kiện hiện tại, thách thức, tại sao đó là vấn đề và tổng quan cấp cao về cách giải quyết chất lượng dữ liệu trong một tổ chức. Hãy cho chúng tôi biết nếu bạn quan tâm đến việc xem xét sâu hơn bất kỳ chủ đề nào trong số này trong một bài báo cấp 200 hoặc cấp sau đại học. Nếu vậy, chúng tôi sẽ đi sâu hơn vào các chi tiết cụ thể trong những tháng tới.