Тизери
Коли ми вперше побачили дані?
- Середина ХХ ст
- Як наступник Вулкана Спок
- 18,000 до н.е.
- Хто знає?
Наскільки ми можемо повернутися в відкриту історію, ми знаходимо людей, які використовують дані. Цікаво, що дані навіть передують записаним числам. Деякі з найперших прикладів зберігання даних належать приблизно за 18,000 2 років до нашої ери, коли наші предки на африканському континенті використовували позначки на паличках як форму бухгалтерського обліку. Відповіді 4 і 21 також будуть прийняті. Однак це була середина двадцятого століття, коли бізнес-аналітика вперше була визначена в тому вигляді, в якому ми її розуміємо сьогодні. BI не набув широкого поширення майже до початку XNUMX століття.
Переваги якості даних очевидні.
- Довіряйте. Користувачі краще довірятимуть даним. «75% керівників не довіряють своїм даним"
- Кращі рішення. Ви зможете використовувати аналітику на основі даних, щоб приймати більш розумні рішення. Якість даних є однією з двох найбільших проблем, з якими стикаються організації, які впроваджують ШІ. (Іншим є набори навичок персоналу.)
- Конкурентну перевагу. Якість даних впливає на ефективність роботи, обслуговування клієнтів, маркетинг і кінцевий результат – дохід.
- Успіх. Якість даних тісно пов’язана з бізнесом успіх.
6 ключових елементів якості даних
Якщо ви не можете довіряти своїм даним, як ви можете поважати його поради?
Сьогодні якість даних має вирішальне значення для обґрунтованості рішень, які бізнес приймає за допомогою інструментів BI, аналітики, машинного навчання та штучного інтелекту. У найпростішому вигляді якість даних – це дані, які є дійсними та повними. Можливо, ви бачили проблеми з якістю даних у заголовках:
- Покращення даних CDC про COVID-19 – «Протягом пандемії CDC покращував своєчасність, повноту та якість важливих даних для реагування».
- Сміття входить, сміття виходить; міський наглядовий орган знаходить тривожну модель ненадійної якості даних – «У новому звіті виконуючого обов’язки генерального інспектора [Чикаго] йдеться, що «проблеми з якістю даних» впливають на «об’єктивність, корисність і цілісність» інформації, яка використовується для розподілу ресурсів, вимірювання продуктивності співробітників і моніторингу безлічі програм».
- GAO виявляє проблеми з якістю даних під час розгортання EHR VA – «Агентство VA не забезпечило якість даних, перенесених у його нову систему EHR Cerner».
У певному сенсі – навіть на початку третього десятиліття Business Intelligence – досягти та підтримувати якість даних ще складніше. Деякі з проблем, які сприяють постійній боротьбі за підтримку якості даних, включають:
- Злиття та поглинання, які намагаються об’єднати різні системи, процеси, інструменти та дані від кількох організацій.
- Внутрішні накопичувачі даних без стандартів для узгодження інтеграції даних.
- Дешеве зберігання спростило збір і збереження великих обсягів даних. Ми збираємо більше даних, ніж можемо проаналізувати.
- Складність систем даних зросла. Існує більше точок дотику між системою запису, куди вводяться дані, і точкою споживання, будь то сховище даних чи хмара.
Про які аспекти даних ми говоримо? Які властивості даних впливають на їх якість? Є шість елементів, які сприяють якості даних. Кожна з них є цілими дисциплінами.
- своєчасність
- Дані готові та придатні для використання, коли вони потрібні.
- Дані доступні для звітування на кінець місяця, наприклад, протягом першого тижня наступного місяця.
- Термін дії
- Дані мають правильний тип даних у базі даних. Текст є текстом, дати є датами, а числа є числами.
- Значення в межах очікуваного діапазону. Наприклад, хоча 212 градусів за Фаренгейтом є фактичною температурою, яку можна виміряти, це недійсне значення для температури людини.
- Значення мають правильний формат. 1.000000 не має такого ж значення, як 1.
- консистенція
- Дані є внутрішньо узгодженими
- Дублікатів записів немає
- Цілісність
- Зв'язки між таблицями надійні.
- Він не змінений ненавмисно. Цінності можна простежити до їхнього походження.
- Повнота
- У даних немає «дірок». Усі елементи запису мають значення.
- Значень NULL немає.
- Точність
- Дані у звітному чи аналітичному середовищі – сховище даних, локальне чи хмарне – відображають вихідні системи, або системи, чи записи
- Дані отримані з джерел, які можна перевірити.
Отже, ми погоджуємося, що проблема якості даних така ж стара, як і самі дані, проблема повсюдна, і її життєво необхідно вирішити. Отже, що ми з цим робимо? Розглядайте свою програму якості даних як довгостроковий, нескінченний проект.
Якість даних точно показує, наскільки точно ці дані відображають реальність. Чесно кажучи, деякі дані важливіші за інші. Дізнайтеся, які дані мають вирішальне значення для прийняття надійних бізнес-рішень і успіху організації. Почніть там. Зосередьтеся на цих даних.
Оскільки якість даних 101, ця стаття є вступом до теми на рівні першокурсника: історія, поточні події, виклик, чому це проблема та огляд високого рівня того, як вирішити питання якості даних в організації. Повідомте нам, якщо ви зацікавлені в глибшому розгляді будь-якої з цих тем у статті рівня 200 або випускника. Якщо так, то найближчими місяцями ми глибше заглибимося в деталі.