Teasers
Кога за първи път видяхме данни?
- Средата на ХХ век
- Като наследник на Вулкан, Спок
- 18,000 BC
- Кой знае?
Доколкото можем да се върнем назад в откритата история, откриваме хора, използващи данни. Интересното е, че данните дори предхождат написаните числа. Някои от най-ранните примери за съхраняване на данни са от около 18,000 2 г. пр. н. е., когато нашите предци на африканския континент са използвали знаци върху пръчици като форма на счетоводство. Отговори 4 и 21 също ще бъдат приети. Беше средата на двадесети век обаче, когато бизнес разузнаването беше дефинирано за първи път така, както го разбираме днес. BI не стана широко разпространен почти до началото на XNUMX век.
Ползите от качеството на данните са очевидни.
- Доверие. Потребителите ще се доверят по-добре на данните. “75% от ръководителите не се доверяват на данните си"
- По-добри решения. Ще можете да използвате анализи срещу данните, за да вземате по-интелигентни решения. Качество на данните е едно от двете най-големи предизвикателства пред организациите, приемащи AI. (Другото е набор от умения на персонала.)
- Конкурентно предимство. Качеството на данните влияе върху оперативната ефективност, обслужването на клиентите, маркетинга и крайния резултат – приходите.
- успех. Качеството на данните е тясно свързано с бизнеса успех.
6 ключови елемента на качеството на данните
Ако не можете да се доверите на данните си, как можете да уважите съветите им?
Днес качеството на данните е от решаващо значение за валидността на решенията, които бизнесът взема с BI инструменти, анализи, машинно обучение и изкуствен интелект. Най-просто, качеството на данните са данни, които са валидни и пълни. Може да сте виждали проблемите с качеството на данните в заглавията:
- Подобряване на данните за COVID-19 на CDC – „В хода на пандемията CDC подобрява навременността, пълнотата и качеството на критичните данни за отговора.“
- Боклук вътре, боклук вън; City Watchdog открива обезпокоителен модел на ненадеждно качество на данните – „Нов доклад от [Чикагския] действащ генерален инспектор казва, че „проблемите с качеството на данните“ засягат „обективността, полезността и целостта“ на информацията, използвана за разпределяне на ресурси, измерване на ефективността на служителите и наблюдение на множество програми.“
- GAO открива проблеми с качеството на данните по време на внедряването на EHR на VA – „VA не гарантира качеството на данните, мигрирани към новата му система Cerner EHR.“
В някои отношения – дори в третото десетилетие на Business Intelligence – постигането и поддържането на качеството на данните е още по-трудно. Някои от предизвикателствата, които допринасят за постоянната борба за поддържане на качеството на данните, включват:
- Сливания и придобивания, които се опитват да обединят различни системи, процеси, инструменти и данни от множество субекти.
- Вътрешни силози от данни без стандарти за съвместяване на интегрирането на данни.
- Евтиното съхранение направи улавянето и задържането на големи количества данни по-лесно. Ние събираме повече данни, отколкото можем да анализираме.
- Сложността на системите за данни нарасна. Има повече допирни точки между системата за запис, където се въвеждат данните, и точката на потребление, независимо дали това е хранилище за данни или облак.
За какви аспекти на данните говорим? Какви свойства на данните допринасят за тяхното качество? Има шест елемента, които допринасят за качеството на данните. Всяка от тях е цели дисциплини.
- навременност
- Данните са готови и могат да се използват, когато са необходими.
- Данните са достъпни за отчитане в края на месеца, например през първата седмица на следващия месец.
- валидност
- Данните имат правилния тип данни в базата данни. Текстът е текст, датите са дати, а числата са числа.
- Стойностите са в очакваните граници. Например, докато 212 градуса по Фаренхайт е действителна измерима температура, това не е валидна стойност за човешка температура.
- Стойностите са в правилния формат. 1.000000 няма същото значение като 1.
- Съгласуваност
- Данните са вътрешно последователни
- Няма дубликати на записи
- интегритет
- Връзките между таблиците са надеждни.
- Не се променя неволно. Ценностите могат да бъдат проследени до техния произход.
- пълнота
- Няма „дупки“ в данните. Всички елементи на запис имат стойности.
- Няма стойности NULL.
- Точност
- Данните в отчетната или аналитичната среда – складът на данни, независимо дали е локален или в облака – отразява изходните системи, или системи, или запис
- Данните са от проверими източници.
Съгласни сме, следователно, че предизвикателството за качеството на данните е толкова старо, колкото и самите данни, проблемът е повсеместен и жизненоважен за решаване. И така, какво да правим по въпроса? Гледайте на вашата програма за качество на данните като на дългосрочен, безкраен проект.
Качеството на данните тясно представя колко точно тези данни представят реалността. Честно казано, някои данни са по-важни от други. Знайте кои данни са от решаващо значение за стабилните бизнес решения и успеха на организацията. Започнете оттам. Фокусирайте се върху тези данни.
Като Data Quality 101, тази статия е въведение на ниво първокурсник в темата: историята, текущите събития, предизвикателството, защо това е проблем и преглед на високо ниво за това как да се обърне внимание на качеството на данните в една организация. Уведомете ни, ако проявявате интерес да разгледате по-задълбочено някоя от тези теми в статия за ниво 200 или за висше образование. Ако е така, ще се потопим в подробностите през следващите месеци.