Дражнілкі
Калі мы ўпершыню ўбачылі дадзеныя?
- Сярэдзіна ХХ ст
- Як пераемнік Вулкана, Спок
- 18,000 да н.э.
- Хто ведае?
Наколькі мы можам вярнуцца ў гісторыю адкрыццяў, мы знаходзім людзей, якія выкарыстоўваюць дадзеныя. Цікава, што дадзеныя нават папярэднічаюць напісаным лічбам. Некаторыя з самых ранніх прыкладаў захоўвання даных адносяцца прыкладна да 18,000 2 г. да н. э., калі нашы продкі на афрыканскім кантыненце выкарыстоўвалі адзнакі на палачках як форму бухгалтарскага ўліку. Адказы 4 і 21 таксама прымаюцца. Аднак была сярэдзіна дваццатага стагоддзя, калі бізнес-аналітыка была ўпершыню вызначана ў тым выглядзе, у якім мы яе разумеем сёння. BI не атрымаў шырокага распаўсюджвання амаль да пачатку XNUMX-га стагоддзя.
Перавагі якасці дадзеных відавочныя.
- давер. Карыстальнікам будзе лепш давяраць дадзеным. «75% кіраўнікоў не давяраюць сваім дадзеным"
- Лепшыя рашэнні. Вы зможаце выкарыстоўваць аналітыку супраць дадзеных, каб прымаць больш разумныя рашэнні. Якасць дадзеных з'яўляецца адной з дзвюх самых вялікіх праблем, з якімі сутыкаюцца арганізацыі, якія прымаюць штучны інтэлект. (Другім з'яўляюцца наборы навыкаў персаналу.)
- Канкурэнтная перавага. Якасць даных уплывае на аператыўную эфектыўнасць, абслугоўванне кліентаў, маркетынг і вынік - прыбытак.
- Поспех. Якасць даных цесна звязана з бізнесам поспех.
6 ключавых элементаў якасці даных
Калі вы не можаце давяраць сваім дадзеным, як вы можаце паважаць іх парады?
Сёння якасць даных мае вырашальнае значэнне для абгрунтаванасці рашэнняў, якія бізнес прымае з дапамогай інструментаў BI, аналітыкі, машыннага навучання і штучнага інтэлекту. Прасцей кажучы, якасць даных - гэта сапраўдныя і поўныя даныя. Магчыма, вы бачылі праблемы якасці даных у загалоўках:
- Паляпшэнне дадзеных CDC па COVID-19 – «На працягу пандэміі CDC паляпшаў своечасовасць, паўнату і якасць важных даных для рэагавання».
- Смецце ў, смецце вон; гарадскі вартавы орган знаходзіць трывожную схему ненадзейнай якасці даных – «У новым дакладзе выконваючага абавязкі генеральнага інспектара [Чыкага] гаворыцца, што «праблемы з якасцю даных» уплываюць на «аб'ектыўнасць, карыснасць і цэласнасць» інфармацыі, якая выкарыстоўваецца для размеркавання рэсурсаў, вымярэння прадукцыйнасці супрацоўнікаў і маніторынгу мноства праграм».
- GAO знаходзіць праблемы з якасцю даных падчас разгортвання EHR VA – «Аддзел ВА не забяспечыў якасць даных, перанесеных у новую сістэму EHR Cerner».
У некаторых адносінах - нават у трэцім дзесяцігоддзі Business Intelligence - дасягненне і падтрыманне якасці даных яшчэ больш складана. Некаторыя з праблем, якія спрыяюць пастаяннай барацьбе за падтрыманне якасці даных, ўключаюць:
- Зліцці і паглынанні, якія спрабуюць аб'яднаць разрозненыя сістэмы, працэсы, інструменты і даныя з розных арганізацый.
- Унутраныя бункеры даных без стандартаў для ўзгаднення інтэграцыі даных.
- Таннае сховішча палегчыла збор і захаванне вялікіх аб'ёмаў даных. Мы збіраем больш дадзеных, чым можам прааналізаваць.
- Складанасць сістэм даных вырасла. Паміж сістэмай запісу, у якую ўводзяцца даныя, і пунктам іх спажывання існуе больш кантактных кропак, няхай гэта будзе сховішча даных або воблака.
Пра якія аспекты дадзеных мы гаворым? Якія ўласцівасці дадзеных спрыяюць іх якасці? Ёсць шэсць элементаў, якія спрыяюць якасці даных. Кожная з іх - цэлыя дысцыпліны.
- своечасовасць
- Дадзеныя гатовыя і іх можна выкарыстоўваць, калі яны патрэбныя.
- Дадзеныя даступныя для справаздачы на канец месяца, напрыклад, на працягу першага тыдня наступнага месяца.
- тэрмін дзеяння
- Дадзеныя маюць правільны тып даных у базе даных. Тэкст - гэта тэкст, даты - гэта даты, а лічбы - гэта лічбы.
- Значэнні знаходзяцца ў чаканых межах. Напрыклад, у той час як 212 градусаў па Фарэнгейту з'яўляецца фактычнай тэмпературай, якую можна вымераць, гэта несапраўднае значэнне для тэмпературы чалавека.
- Значэнні маюць правільны фармат. 1.000000 не мае тое ж значэнне, што 1.
- Ўзгодненасць
- Дадзеныя ўнутрана ўзгодненыя
- Дублікатаў запісаў няма
- Цэласнасць
- Адносіны паміж табліцамі надзейныя.
- Ён не зменены ненаўмысна. Каштоўнасці можна прасачыць да іх паходжання.
- завершанасць
- У дадзеных няма «дзірак». Усе элементы запісу маюць значэнні.
- Значэнняў NULL няма.
- Дакладнасць
- Дадзеныя ў асяроддзі справаздач або аналітычным асяроддзі - сховішча даных, лакальнае або воблачнае - адлюстроўваюць зыходныя сістэмы, або сістэмы, або запіс
- Дадзеныя з правераных крыніц.
Такім чынам, мы згодныя з тым, што праблема якасці даных такая ж старая, як і самі даныя, праблема паўсюдная і жыццёва важная для вырашэння. Такім чынам, што нам з гэтым рабіць? Разглядайце сваю праграму якасці даных як доўгатэрміновы, бясконцы праект.
Якасць даных дакладна паказвае, наколькі дакладна гэтыя даныя адлюстроўваюць рэчаіснасць. Шчыра кажучы, некаторыя дадзеныя больш важныя, чым іншыя. Ведайце, якія даныя маюць вырашальнае значэнне для прыняцця надзейных бізнес-рашэнняў і поспеху арганізацыі. Пачні там. Засяродзьцеся на гэтых дадзеных.
Як Data Quality 101, гэты артыкул з'яўляецца ўвядзеннем у тэму на ўзроўні першакурсніка: гісторыя, бягучыя падзеі, праблема, чаму гэта праблема і агульны агляд таго, як вырашаць пытанні якасці даных у арганізацыі. Дайце нам ведаць, калі вы зацікаўлены ў больш глыбокім вывучэнні любой з гэтых тэм у артыкуле на ўзроўні 200 або выпускнікоў. Калі так, то ў бліжэйшыя месяцы мы паглыбімся ў падрабязнасці.