티저
우리는 언제 데이터를 처음 보았습니까?
- XNUMX세기 중반
- 발칸의 후계자, 스팍
- 18,000 BC
- 누가 알아?
발견된 역사로 거슬러 올라가면 우리는 데이터를 사용하는 인간을 찾습니다. 흥미롭게도 데이터는 쓰여진 숫자보다 우선합니다. 데이터를 저장하는 초기 사례 중 일부는 아프리카 대륙의 우리 조상이 부기의 한 형태로 막대기의 표시를 사용했던 기원전 18,000년 경입니다. 답변 2와 4도 수락됩니다. 그러나 오늘날 우리가 이해하는 대로 비즈니스 인텔리전스가 처음으로 정의된 때는 21세기 중반이었습니다. BI는 거의 XNUMX세기로 접어들 때까지 널리 보급되지 않았습니다.
데이터 품질의 이점은 분명합니다.
- 믿어. 사용자는 데이터를 더 잘 신뢰하게 될 것입니다. "경영진의 75%는 데이터를 신뢰하지 않습니다."
- 더 나은 결정. 데이터에 대한 분석을 사용하여 더 현명한 결정을 내릴 수 있습니다. 데이터 품질 AI를 채택한 조직이 직면한 두 가지 가장 큰 과제 중 하나입니다. (다른 하나는 직원 스킬 세트입니다.)
- 경쟁 우위. 데이터의 품질은 운영 효율성, 고객 서비스, 마케팅 및 수익에 영향을 미칩니다.
- Success. 데이터 품질은 비즈니스와 밀접한 관련이 있습니다. 성공.
데이터 품질의 6가지 핵심 요소
데이터를 신뢰할 수 없다면 어떻게 조언을 존중할 수 있습니까?
오늘날 데이터 품질은 BI 도구, 분석, 기계 학습 및 인공 지능을 사용하여 기업이 내리는 결정의 유효성에 매우 중요합니다. 가장 단순한 데이터 품질은 유효하고 완전한 데이터입니다. 헤드라인에서 데이터 품질 문제를 본 적이 있을 것입니다.
- CDC의 COVID-19 데이터 개선 – “팬데믹이 진행되는 동안 CDC는 대응을 위한 중요 데이터의 적시성, 완전성 및 품질을 개선해 왔습니다.”
- 쓰레기 인, 쓰레기 아웃; City Watchdog은 신뢰할 수 없는 데이터 품질의 문제 패턴을 찾습니다. – "[시카고] 감찰관 대리의 새로운 보고서에 따르면 "데이터 품질 문제"가 자원 할당, 직원 성과 측정 및 다수의 프로그램 모니터링에 사용되는 정보의 "객관성, 유용성 및 무결성"에 영향을 미친다고 합니다."
- GAO는 VA의 EHR 롤아웃 중에 데이터 품질 문제를 찾습니다. – “VA는 새로운 Cerner EHR 시스템으로 마이그레이션된 데이터의 품질을 보장하지 않았습니다.”
어떤 면에서는 비즈니스 인텔리전스의 XNUMX년이 지난 지금도 데이터 품질을 달성하고 유지하는 것이 훨씬 더 어렵습니다. 데이터 품질을 유지하기 위한 끊임없는 투쟁에 기여하는 몇 가지 문제는 다음과 같습니다.
- 여러 기업의 이질적인 시스템, 프로세스, 도구 및 데이터를 통합하려는 합병 및 인수.
- 데이터 통합을 조정하기 위한 표준이 없는 데이터의 내부 사일로.
- 저렴한 스토리지 덕분에 많은 양의 데이터를 더 쉽게 캡처하고 유지할 수 있습니다. 우리는 분석할 수 있는 것보다 더 많은 데이터를 수집합니다.
- 데이터 시스템의 복잡성이 증가했습니다. 데이터 웨어하우스든 클라우드든 데이터가 입력되는 기록 시스템과 소비 지점 사이에는 더 많은 접점이 있습니다.
데이터의 어떤 측면에 대해 이야기하고 있습니까? 데이터의 어떤 속성이 품질에 기여합니까? 데이터 품질에 기여하는 XNUMX가지 요소가 있습니다. 이들 각각은 전체 학문입니다.
- 적시
- 데이터는 필요할 때 즉시 사용할 수 있습니다.
- 데이터는 예를 들어 다음 달 첫 주에 월말 보고에 사용할 수 있습니다.
- 유효 기간
- 데이터는 데이터베이스에서 올바른 데이터 유형을 갖습니다. 텍스트는 텍스트, 날짜는 날짜, 숫자는 숫자입니다.
- 값이 예상 범위 내에 있습니다. 예를 들어 화씨 212도는 실제 측정 가능한 온도이지만 사람의 체온에 대해서는 유효한 값이 아닙니다.
- 값의 형식이 정확합니다. 1.000000은 1과 같은 의미가 아닙니다.
- 일관성
- 데이터는 내부적으로 일관성이 있습니다.
- 레코드의 중복이 없습니다
- 진실성
- 테이블 간의 관계는 신뢰할 수 있습니다.
- 의도하지 않게 변경되는 것은 아닙니다. 값의 출처를 추적할 수 있습니다.
- 완전성
- 데이터에는 "구멍"이 없습니다. 레코드의 모든 요소에는 값이 있습니다.
- NULL 값이 없습니다.
- 정확성
- 보고 또는 분석 환경의 데이터(온프레미스 또는 클라우드의 데이터 웨어하우스)는 소스 시스템, 시스템 또는 기록을 반영합니다.
- 데이터는 검증 가능한 소스에서 가져온 것입니다.
따라서 우리는 데이터 품질의 문제가 데이터 자체만큼이나 오래되었다는 점에 동의합니다. 문제는 도처에 있으며 해결하는 데 필수적입니다. 그럼 어떻게 해야 할까요? 데이터 품질 프로그램을 장기적이고 끝이 없는 프로젝트로 생각하십시오.
데이터의 품질은 해당 데이터가 현실을 얼마나 정확하게 나타내는지를 밀접하게 나타냅니다. 솔직히 말해서 어떤 데이터는 다른 데이터보다 더 중요합니다. 견고한 비즈니스 결정과 조직의 성공에 중요한 데이터가 무엇인지 파악하십시오. 거기에서 시작하십시오. 그 데이터에 집중하세요.
Data Quality 101인 이 기사는 역사, 현재 사건, 과제, 문제인 이유 및 조직 내에서 데이터 품질을 해결하는 방법에 대한 상위 수준 개요와 같은 주제에 대한 신입생 수준의 소개입니다. 200개 수준 또는 대학원 수준의 기사에서 이러한 주제에 대해 자세히 살펴보고 싶다면 알려주십시오. 그렇다면 앞으로 몇 달 안에 세부 사항에 대해 더 자세히 알아볼 것입니다.