закачки
Кога првпат видовме податоци?
- Средината на дваесеттиот век
- Како наследник на Вулкан, Спок
- 18,000 п.н.е.
- Кој знае?
Колку што можеме да одиме наназад во откриената историја, наоѓаме луѓе кои користат податоци. Интересно, податоците дури и претходат на напишаните броеви. Некои од најраните примери за складирање податоци се од околу 18,000 п.н.е., каде што нашите предци на африканскиот континент користеле ознаки на стапчиња како форма на книговодство. Одговорите 2 и 4 исто така ќе бидат прифатени. Сепак, беше средината на дваесеттиот век, кога деловната интелигенција за прв пат беше дефинирана како што ја разбираме денес. БИ не стана широко распространета речиси до крајот на 21 век.
Придобивките од квалитетот на податоците се очигледни.
- Верувајте. Корисниците подобро ќе им веруваат на податоците. “75% од директорите не им веруваат на нивните податоци"
- Подобри одлуки. Ќе можете да користите аналитика против податоците за да донесувате попаметни одлуки. Квалитет на податоци е еден од двата најголеми предизвици со кои се соочуваат организациите кои прифаќаат вештачка интелигенција. (Другото се групи на вештини на персоналот.)
- Конкурентна предност. Квалитетот на податоците влијае на оперативната ефикасност, услугите на клиентите, маркетингот и крајната линија - приходите.
- Успех. Квалитетот на податоците е многу поврзан со бизнисот успех.
6 Клучни елементи на квалитетот на податоците
Ако не можете да им верувате на вашите податоци, како можете да ги почитувате нивните совети?
Денес, квалитетот на податоците е критичен за валидноста на одлуките што ги носат бизнисите со алатките за БИ, аналитиката, машинското учење и вештачката интелигенција. Наједноставно, квалитетот на податоците е податок кој е валиден и целосен. Можеби сте ги виделе проблемите со квалитетот на податоците во насловите:
- Подобрување на податоците за COVID-19 на ЦДЦ – „Во текот на пандемијата, ЦДЦ ја подобрува навременоста, комплетноста и квалитетот на критичните податоци за одговорот“.
- Ѓубре во, ѓубре надвор; Градскиот чувар наоѓа вознемирувачка шема на несигурен квалитет на податоците – „Новиот извештај од вршителот на должноста генерален инспектор [Чикаго] вели дека „прашањата за квалитетот на податоците“ влијаат на „објективноста, корисноста и интегритетот“ на информациите што се користат за распределба на ресурсите, мерење на перформансите на вработените и следење на голем број програми“.
- GAO наоѓа проблеми со квалитетот на податоците за време на пуштањето во употреба на EHR на VA – „VA не обезбеди квалитетот на податоците мигрирани во нејзиниот нов Cerner EHR систем“.
На некој начин – дури и во третата деценија на деловната интелигенција – постигнувањето и одржувањето на квалитетот на податоците е уште потешко. Некои од предизвиците кои придонесуваат за постојана борба за одржување на квалитетот на податоците вклучуваат:
- Спојувања и аквизиции кои се обидуваат да спојат различни системи, процеси, алатки и податоци од повеќе субјекти.
- Внатрешни силоси на податоци без стандарди за усогласување на интеграцијата на податоците.
- Евтиното складирање го олесни снимањето и задржувањето на големи количини на податоци. Добиваме повеќе податоци отколку што можеме да анализираме.
- Сложеноста на системите за податоци порасна. Има повеќе допирни точки помеѓу системот за евиденција каде се внесуваат податоците и точката на потрошувачка, без разлика дали тоа е складиштето на податоци или облакот.
За кои аспекти на податоците зборуваме? Кои својства на податоците придонесуваат за нивниот квалитет? Постојат шест елементи кои придонесуваат за квалитетот на податоците. Секоја од овие се цели дисциплини.
- Навременост
- Податоците се подготвени и употребливи кога се потребни.
- Податоците се достапни за известување на крајот на месецот, на пример, во првата недела од следниот месец.
- валидност
- Податоците го имаат точниот тип на податоци во базата на податоци. Текстот е текст, датумите се датуми и броевите се броеви.
- Вредностите се во очекуваните граници. На пример, додека 212 степени Фаренхајт е вистинска мерлива температура, тоа не е валидна вредност за човечка температура.
- Вредностите имаат правилен формат. 1.000000 го нема истото значење како 1.
- доследност
- Податоците се внатрешно конзистентни
- Нема дупликати на записи
- Интегритет
- Односите меѓу табелите се сигурни.
- Не се менува ненамерно. Вредностите може да се следат до нивното потекло.
- Комплетност
- Нема „дупки“ во податоците. Сите елементи на записот имаат вредности.
- Нема NULL вредности.
- точност
- Податоците во известувачката или аналитичката средина - складиштето на податоци, без разлика дали е на prem или во облакот - ги одразуваат изворните системи, или системи или записи
- Податоците се од проверливи извори.
Значи, се согласуваме дека предизвикот за квалитетот на податоците е стар колку и самите податоци, проблемот е сеприсутен и витален за решавање. Значи, што правиме за тоа? Сметајте ја вашата програма за квалитет на податоци како долгорочен, бесконечен проект.
Квалитетот на податоците тесно покажува колку точно тие податоци ја претставуваат реалноста. Да бидам искрен, некои податоци се поважни од другите податоци. Знајте кои податоци се клучни за цврсти деловни одлуки и успехот на организацијата. Започнете таму. Фокусирајте се на тие податоци.
Како квалитет на податоци 101, овој напис е вовед на ниво на бруцош за темата: историјата, тековните настани, предизвикот, зошто тоа е проблем и преглед на високо ниво за тоа како да се реши квалитетот на податоците во организацијата. Кажете ни ако сте заинтересирани да разгледате подлабоко некоја од овие теми во статија од 200 нивоа или на ниво на постдипломски студии. Ако е така, ќе навлеземе подлабоко во спецификите во наредните месеци.