टीज़र
हमने पहली बार डेटा कब देखा?
- मध्य बीसवीं सदी
- वल्कन के उत्तराधिकारी के रूप में, Spock
- 18,000 ई.पू.
- कौन जाने?
जहाँ तक हम खोजे गए इतिहास में जा सकते हैं, हम मनुष्यों को डेटा का उपयोग करते हुए पाते हैं। दिलचस्प बात यह है कि डेटा लिखित संख्या से भी पहले का है। डेटा संग्रहीत करने के कुछ शुरुआती उदाहरण लगभग 18,000 ईसा पूर्व के हैं जहां अफ्रीकी महाद्वीप पर हमारे पूर्वजों ने बहीखाता पद्धति के रूप में लाठी पर निशान का इस्तेमाल किया था। उत्तर 2 और 4 भी स्वीकार किए जाएंगे। यह बीसवीं सदी के मध्य में था, हालांकि, जब बिजनेस इंटेलिजेंस को पहली बार परिभाषित किया गया था जैसा कि हम आज इसे समझते हैं। लगभग 21वीं सदी के अंत तक बीआई व्यापक नहीं हुआ।
डेटा गुणवत्ता के लाभ स्पष्ट हैं।
- ट्रस्ट. उपयोगकर्ता डेटा पर बेहतर भरोसा करेंगे। "75% कार्यकारी अपने डेटा पर भरोसा नहीं करते"
- बेहतर निर्णय. आप बेहतर निर्णय लेने के लिए डेटा के विरुद्ध विश्लेषण का उपयोग करने में सक्षम होंगे। आँकड़े की गुणवत्ता एआई को अपनाने वाले संगठनों के सामने दो सबसे बड़ी चुनौतियों में से एक है। (दूसरा स्टाफ स्किल सेट है।)
- प्रतिस्पर्धात्मक लाभ। डेटा की गुणवत्ता परिचालन दक्षता, ग्राहक सेवा, विपणन और नीचे की रेखा - राजस्व को प्रभावित करती है।
- सफलता. डेटा की गुणवत्ता व्यवसाय से बहुत अधिक जुड़ी हुई है सफलता.
डेटा गुणवत्ता के 6 प्रमुख तत्व
यदि आप अपने डेटा पर भरोसा नहीं कर सकते, तो आप इसकी सलाह का सम्मान कैसे कर सकते हैं?
आज, डेटा की गुणवत्ता बीआई टूल्स, एनालिटिक्स, मशीन लर्निंग और आर्टिफिशियल इंटेलिजेंस के साथ किए गए निर्णयों की वैधता के लिए महत्वपूर्ण है। इसके सरलतम रूप में, डेटा गुणवत्ता वह डेटा है जो वैध और पूर्ण है। आपने डेटा गुणवत्ता की समस्याओं को सुर्खियों में देखा होगा:
- सीडीसी का COVID-19 डेटा सुधार - "महामारी के दौरान, सीडीसी प्रतिक्रिया के लिए महत्वपूर्ण डेटा की समयबद्धता, पूर्णता और गुणवत्ता में सुधार कर रहा है।"
- कचरा अंदर कचरा बाहर; सिटी वॉचडॉग को अविश्वसनीय डेटा गुणवत्ता के परेशान करने वाले पैटर्न मिलते हैं - "[शिकागो] के कार्यवाहक महानिरीक्षक की एक नई रिपोर्ट में कहा गया है कि "डेटा गुणवत्ता के मुद्दे" संसाधनों को आवंटित करने, कर्मचारी के प्रदर्शन को मापने और कई कार्यक्रमों की निगरानी के लिए उपयोग की जाने वाली जानकारी की "निष्पक्षता, उपयोगिता और अखंडता" को प्रभावित करते हैं।
- VA के EHR रोलआउट के दौरान GAO को डेटा गुणवत्ता संबंधी समस्याएं मिलीं - "VA ने अपने नए Cerner EHR सिस्टम में माइग्रेट किए गए डेटा की गुणवत्ता सुनिश्चित नहीं की।"
कुछ मायनों में - यहां तक कि बिजनेस इंटेलिजेंस के तीसरे दशक में भी - डेटा की गुणवत्ता को प्राप्त करना और बनाए रखना और भी कठिन है। डेटा गुणवत्ता बनाए रखने के निरंतर संघर्ष में योगदान देने वाली कुछ चुनौतियों में शामिल हैं:
- विलय और अधिग्रहण जो कई संस्थाओं से अलग-अलग प्रणालियों, प्रक्रियाओं, उपकरणों और डेटा को एक साथ लाने का प्रयास करते हैं।
- डेटा के एकीकरण को समेटने के लिए मानकों के बिना डेटा का आंतरिक साइलो।
- सस्ते भंडारण ने बड़ी मात्रा में डेटा को पकड़ना और बनाए रखना आसान बना दिया है। हम जितना विश्लेषण कर सकते हैं उससे अधिक डेटा कैप्चर करते हैं।
- डेटा सिस्टम की जटिलता बढ़ी है। रिकॉर्ड की प्रणाली जहां डेटा दर्ज किया जाता है और खपत के बिंदु के बीच अधिक टचपॉइंट होते हैं, चाहे वह डेटा वेयरहाउस या क्लाउड हो।
हम डेटा के किन पहलुओं के बारे में बात कर रहे हैं? डेटा के कौन से गुण इसकी गुणवत्ता में योगदान करते हैं? छह तत्व हैं जो डेटा गुणवत्ता में योगदान करते हैं। इनमें से प्रत्येक संपूर्ण अनुशासन है।
- सामयिकता
- डेटा तैयार है और जरूरत पड़ने पर प्रयोग करने योग्य है।
- उदाहरण के लिए, डेटा अगले महीने के पहले सप्ताह के भीतर महीने के अंत में रिपोर्टिंग के लिए उपलब्ध है।
- वैधता
- डेटाबेस में डेटा का सही डेटा प्रकार होता है। टेक्स्ट टेक्स्ट है, तिथियां तिथियां हैं और संख्याएं संख्याएं हैं।
- मान अपेक्षित सीमाओं के भीतर हैं। उदाहरण के लिए, जबकि 212 डिग्री फ़ारेनहाइट एक वास्तविक मापने योग्य तापमान है, यह मानव तापमान के लिए मान्य मान नहीं है।
- मानों का सही प्रारूप होता है। 1.000000 का अर्थ 1 के समान नहीं है।
- कंसिस्टेंसी (Consistency)
- डेटा आंतरिक रूप से सुसंगत है
- रिकॉर्ड की कोई डुप्लीकेट नहीं हैं
- अखंडता
- तालिकाओं के बीच संबंध विश्वसनीय हैं।
- यह अनजाने में नहीं बदला गया है। मूल्यों का उनके मूल से पता लगाया जा सकता है।
- संपूर्णता
- डेटा में कोई "छेद" नहीं हैं। रिकॉर्ड के सभी तत्वों का मान होता है।
- कोई NULL मान नहीं हैं।
- शुद्धता
- रिपोर्टिंग या विश्लेषणात्मक वातावरण में डेटा - डेटा वेयरहाउस, चाहे वह ऑन-प्रिमाइसेस हो या क्लाउड में - स्रोत सिस्टम, या सिस्टम या रिकॉर्ड को दर्शाता है
- डेटा सत्यापन योग्य स्रोतों से है।
फिर, हम सहमत हैं कि डेटा गुणवत्ता की चुनौती उतनी ही पुरानी है जितनी कि डेटा ही, समस्या सर्वव्यापी और हल करने के लिए महत्वपूर्ण है। तो हम इस बारे में क्या कर सकते हैं? अपने डेटा गुणवत्ता कार्यक्रम को एक दीर्घकालिक, कभी न खत्म होने वाली परियोजना के रूप में देखें।
डेटा की गुणवत्ता बारीकी से दर्शाती है कि डेटा कितनी सटीकता से वास्तविकता का प्रतिनिधित्व करता है। ईमानदार होने के लिए, कुछ डेटा अन्य डेटा की तुलना में अधिक महत्वपूर्ण है। जानें कि ठोस व्यावसायिक निर्णयों और संगठन की सफलता के लिए कौन सा डेटा महत्वपूर्ण है। वहाँ शुरू करो। उस डेटा पर ध्यान दें।
डेटा गुणवत्ता 101 के रूप में, यह लेख विषय के लिए एक नए स्तर का परिचय है: इतिहास, वर्तमान घटनाएं, चुनौती, यह एक समस्या क्यों है और किसी संगठन के भीतर डेटा गुणवत्ता को कैसे संबोधित किया जाए, इसका एक उच्च-स्तरीय अवलोकन। यदि आप 200-स्तर या स्नातक-स्तर के लेख में इनमें से किसी भी विषय पर गहराई से विचार करने में रुचि रखते हैं, तो हमें बताएं। यदि ऐसा है, तो हम आने वाले महीनों में विशिष्टताओं में गहराई से उतरेंगे।