विश्लेषिकी झूठ

by अगस्त 31, 2022बीआई/एनालिटिक्स0 टिप्पणियां

विश्लेषिकी झूठ

विश्लेषण का पूर्वाग्रह

 

मार्क ट्वेन ने विवादास्पद रूप से कुछ ऐसा कहा, "झूठ तीन प्रकार के होते हैं: झूठ, शापित झूठ और विश्लेषिकी". 

हम मानते हैं कि एनालिटिक्स हमें उपयोगी, कार्रवाई योग्य अंतर्दृष्टि प्रदान करता है। जो हम अक्सर महसूस नहीं करते हैं वह यह है कि हमारे अपने पूर्वाग्रह और दूसरों के उन उत्तरों को कैसे प्रभावित करते हैं जो हमें सबसे परिष्कृत सॉफ़्टवेयर और सिस्टम द्वारा दिए जाते हैं। कभी-कभी, हमारे साथ बेईमानी से छेड़छाड़ की जा सकती है, लेकिन, अधिक सामान्यतः, यह सूक्ष्म और अचेतन पूर्वाग्रह हो सकते हैं जो हमारे विश्लेषण में रेंगते हैं। पक्षपाती विश्लेषण के पीछे की प्रेरणा कई गुना है। कभी-कभी विज्ञान से हम जिस निष्पक्ष परिणाम की अपेक्षा करते हैं, वह 1) डेटा प्रस्तुत करने के तरीके में सूक्ष्म विकल्प, 2) असंगत या गैर-प्रतिनिधि डेटा, 3) एआई सिस्टम को कैसे प्रशिक्षित किया जाता है, 4) अज्ञानता, शोधकर्ताओं की अक्षमता या कोशिश कर रहे अन्य लोगों से प्रभावित होते हैं। कहानी सुनाने के लिए, 5) खुद विश्लेषण।    

प्रस्तुति पक्षपाती है

कुछ झूठ दूसरों की तुलना में आसानी से पहचाने जाते हैं। जब आप जानते हैं कि क्या देखना है तो आप संभावित रूप से अधिक आसानी से पता लगा सकते हैं भ्रामक रेखांकन और चार्ट। 

कम से कम हैं डेटा को भ्रामक रूप से प्रदर्शित करने के पांच तरीके: 1) सीमित डेटा सेट दिखाएं, 2)। असंबंधित सहसंबंध दिखाएं, 3) डेटा को गलत तरीके से दिखाएं, 4) डेटा को अपरंपरागत रूप से दिखाएं, या 5)। अधिक सरलीकृत डेटा दिखाएं।

सीमित डेटा सेट दिखाएं

डेटा को सीमित करना, या डेटा के गैर-यादृच्छिक अनुभाग का चयन करना अक्सर एक ऐसी कहानी बता सकता है जो बड़ी तस्वीर के अनुरूप नहीं है। खराब नमूनाकरण, या चेरी चुनना, तब होता है जब विश्लेषक एक बड़े समूह का प्रतिनिधित्व करने के लिए गैर-प्रतिनिधि नमूने का उपयोग करता है। 

मार्च 2020 में, जॉर्जिया के सार्वजनिक स्वास्थ्य विभाग इस चार्ट को अपनी दैनिक स्थिति रिपोर्ट के हिस्से के रूप में प्रकाशित किया। यह वास्तव में उत्तर देने से अधिक प्रश्न उठाता है।  

गायब चीजों में से एक संदर्भ है। उदाहरण के लिए, यह जानना उपयोगी होगा कि प्रत्येक आयु वर्ग के लिए जनसंख्या का प्रतिशत कितना है। साधारण दिखने वाले पाई चार्ट के साथ एक और समस्या असमान आयु वर्ग है। 0-17 में 18 वर्ष, 18-59 में 42, 60+ ओपन एंडेड है, लेकिन इसमें लगभग 40 वर्ष हैं। केवल इस चार्ट को देखते हुए निष्कर्ष यह है कि अधिकांश मामले 18-59 वर्ष आयु वर्ग के हैं। 60+ वर्ष आयु वर्ग COVID मामलों से कम गंभीर रूप से प्रभावित दिखता है। लेकिन यह पूरी कहानी नहीं है।

तुलना के लिए, यह अलग डेटा सेट पर है सीडीसी वेब साइट प्रत्येक आयु सीमा में अमेरिकी जनसंख्या के प्रतिशत पर अतिरिक्त डेटा के साथ आयु समूह द्वारा COVID मामलों को चार्ट करता है।  

यह बेहतर है। हमारे पास और संदर्भ हैं। हम देख सकते हैं कि 18-29, 30-39, 40-49 आयु समूहों में जनसंख्या में आयु वर्ग के प्रतिशत की तुलना में मामलों का प्रतिशत अधिक है। अभी भी कुछ असमान आयु वर्ग हैं। 16-17 एक अलग आयु वर्ग क्यों है? फिर भी यह पूरी कहानी नहीं है, बल्कि पंडितों ने इससे कम पर स्तंभ लिखे हैं, भविष्यवाणियां की हैं और जनादेश दिया है। जाहिर है, COVID के साथ, उम्र के अलावा कई चर हैं जो एक सकारात्मक मामले के रूप में गिने जाने को प्रभावित करते हैं: टीकाकरण की स्थिति, परीक्षणों की उपलब्धता, परीक्षण की संख्या, सहरुग्णता, और कई अन्य। मामलों की संख्या, अपने आप में एक अधूरी तस्वीर पेश करती है। अधिकांश विशेषज्ञ मौतों की संख्या, या प्रति 100,000 जनसंख्या पर मौतों का प्रतिशत, या केस-फैटलिटीज को भी देखते हैं ताकि यह देखा जा सके कि COVID प्रत्येक आयु वर्ग को कैसे प्रभावित करता है।

असंबंधित सहसंबंध दिखाएं

जाहिर है, वहाँ एक है मजबूत संबंध विज्ञान, अंतरिक्ष और प्रौद्योगिकी पर अमेरिकी खर्च और फांसी, गला घोंटने और दम घुटने से आत्महत्याओं की संख्या के बीच। सहसंबंध 99.79% है, लगभग एक संपूर्ण मिलान।  

हालांकि, कौन यह तर्क देगा कि ये किसी तरह से संबंधित हैं, या एक दूसरे का कारण बनता है? अन्य कम चरम उदाहरण हैं, लेकिन कम नकली नहीं हैं। लेटर्स इन विनिंग वर्ड ऑफ स्क्रिप्स नेशनल स्पेलिंग बी और वेनमस स्पाइडर द्वारा मारे गए लोगों की संख्या के बीच एक समान मजबूत संबंध है। संयोग? आप तय करें।

इस डेटा को चार्ट करने का एक और तरीका जो कम भ्रामक हो सकता है, दोनों Y-अक्षों पर शून्य शामिल करना होगा।

डेटा को गलत तरीके से दिखाएं

से डेटा को खराब तरीके से कैसे प्रदर्शित करें, अमेरिकी राज्य जॉर्जिया ने शीर्ष 5 काउंटियों को सबसे बड़ी संख्या में पुष्टि किए गए COVID-19 मामलों के साथ प्रस्तुत किया।

वैध लग रहा है, है ना? पुष्टि की गई COVID-19 मामलों में स्पष्ट रूप से गिरावट का रुझान है। क्या आप एक्स-अक्ष पढ़ सकते हैं? एक्स-अक्ष समय का प्रतिनिधित्व करता है। आमतौर पर, तिथियां बाएं से दाएं बढ़ जाएंगी। यहाँ, हम X-अक्ष पर थोड़ी समय यात्रा देखते हैं: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

रुकना? क्या? एक्स-अक्ष कालानुक्रमिक रूप से क्रमबद्ध नहीं है। इसलिए, प्रवृत्ति जितनी अच्छी लग सकती है, हम कोई निष्कर्ष नहीं निकाल सकते। यदि तिथियों का आदेश दिया जाता है, तो मामलों की संख्या के लिए बार किसी भी प्रकार की प्रवृत्ति की तुलना में अधिक आरी पैटर्न दिखाते हैं।

कैलेंडर की तरह तिथियों को क्रमबद्ध करना यहां आसान फिक्स है।

अपरंपरागत रूप से डेटा दिखाएं

हम सब व्यस्त हैं। हमारे दिमाग ने हमें उन धारणाओं के आधार पर त्वरित निर्णय लेना सिखाया है जो हमारी दुनिया में सुसंगत रही हैं। उदाहरण के लिए, मैंने जो भी ग्राफ देखा है, वह x- और y- अक्षों को शून्य, या निम्नतम मानों पर मिलते हुए दिखाता है। इस चार्ट को संक्षेप में देखते हुए, आप फ़्लोरिडा के प्रभाव के बारे में क्या निष्कर्ष निकाल सकते हैं? “अपना जमीनी कानून खड़ा करो।"? मुझे इसे स्वीकार करने में शर्म आती है, लेकिन इस ग्राफ ने मुझे पहले बेवकूफ बनाया। आपकी नज़र आसानी से टेक्स्ट और ग्राफ़िक के बीच में तीर की ओर खींची जाती है। नीचे इस ग्राफ में ऊपर है। यह झूठ नहीं हो सकता है - डेटा ठीक है। लेकिन, मुझे यह सोचना होगा कि यह धोखा देने के लिए है। यदि आपने इसे अभी तक नहीं देखा है, तो y-अक्ष पर शून्य सबसे ऊपर है। इसलिए, जैसे-जैसे डेटा का रुझान कम होता है, इसका मतलब है कि अधिक मौतें। यह चार्ट दिखाता है कि आग्नेयास्त्रों का उपयोग करके हत्याओं की संख्या वृद्धि हुई 2005 के बाद, चल रही प्रवृत्ति से संकेत मिलता है नीचे.

डेटा को अति-सरलीकृत दिखाएं

डेटा के अति-सरलीकरण का एक उदाहरण तब देखा जा सकता है जब विश्लेषक सिम्पसन के विरोधाभास का लाभ उठाते हैं। यह एक ऐसी घटना है जो तब होती है जब एकत्रित डेटा को सबसेट में अलग किए जाने की तुलना में एक अलग निष्कर्ष प्रदर्शित करता है। उच्च-स्तरीय कुल प्रतिशत को देखते हुए इस जाल में पड़ना आसान है। काम पर सिम्पसन के विरोधाभास के स्पष्ट उदाहरणों में से एक से संबंधित है बल्लेबाजी औसत.  

यहाँ हम देखते हैं कि डेरेक जेटर का 1995 और 1996 सीज़न के लिए डेविड जस्टिस की तुलना में अधिक समग्र बल्लेबाजी औसत है। विरोधाभास तब आता है जब हमें पता चलता है कि जस्टिस ने जेटर को उन दोनों वर्षों में बल्लेबाजी औसत में सर्वश्रेष्ठ बनाया। यदि आप ध्यान से देखें, तो यह समझ में आता है जब आपको पता चलता है कि 4 में जेटर के पास 1996 में .007 कम औसत पर लगभग 1996x अधिक एट-बैट (डिनोमिनेटर) था। जबकि, जस्टिस के पास केवल एट-बैट की संख्या लगभग 10x थी। 003 में 1995 उच्च औसत।

प्रस्तुति सीधी लगती है, लेकिन सिम्पसन के विरोधाभास ने, अनजाने में, या अनजाने में, गलत निष्कर्ष निकाला है। हाल ही में, समाचारों और सोशल मीडिया पर टीकों और COVID मृत्यु दर से संबंधित सिम्पसन के विरोधाभास के उदाहरण सामने आए हैं। एक चार्ट 10-59 वर्ष की आयु के लोगों के लिए टीके लगाए गए और गैर-टीकाकरण के बीच मृत्यु दर की तुलना करते हुए एक रेखा ग्राफ दिखाता है। चार्ट दर्शाता है कि असंबद्ध लगातार मृत्यु दर कम है। यहाँ क्या चल रहा है?  

मुद्दा वैसा ही है जैसा हम बल्लेबाजी औसत के साथ देखते हैं। इस मामले में भाजक प्रत्येक आयु वर्ग में व्यक्तियों की संख्या है। ग्राफ उन समूहों को जोड़ता है जिनके अलग-अलग परिणाम होते हैं। यदि हम वृद्धावस्था समूह, 50-59 को अलग से देखें, तो हम देखते हैं कि टीकाकरण का किराया बेहतर है। इसी तरह, अगर हम 10-49 को देखें, तो हम यह भी देखते हैं कि टीकाकरण का किराया बेहतर है। विरोधाभासी रूप से, जब संयुक्त सेट को देखते हैं, तो बिना टीकाकरण का परिणाम खराब होता है। इस तरह, आप डेटा का उपयोग करके विपरीत तर्कों के लिए मामला बनाने में सक्षम हैं।

डेटा पक्षपाती है

डेटा पर हमेशा भरोसा नहीं किया जा सकता है। वैज्ञानिक समुदाय में भी, सर्वेक्षण में शामिल एक तिहाई से अधिक शोधकर्ताओं ने स्वीकार किया "संदिग्ध अनुसंधान प्रथाओं।"  अन्य अनुसंधान धोखाधड़ी जासूस कहते हैं, "डेटा में बहुत अधिक धोखाधड़ी होने की संभावना है - टेबल, लाइन ग्राफ़, अनुक्रमण डेटा [- की तुलना में हम वास्तव में खोज रहे हैं]। अपनी रसोई की मेज पर बैठा कोई भी व्यक्ति स्प्रेडशीट में कुछ संख्याएँ डाल सकता है और एक रेखा ग्राफ बना सकता है जो आश्वस्त करने वाला लगता है। ”

यह पहला उदाहरण ऐसा लगता है कि किसी ने ऐसा ही किया है। मैं यह नहीं कह रहा हूं कि यह धोखाधड़ी है, लेकिन एक सर्वेक्षण के रूप में, यह कोई डेटा उत्पन्न नहीं करता है जो एक सूचित निर्णय में योगदान देता है। ऐसा लगता है कि सर्वेक्षण ने उत्तरदाताओं से गैस स्टेशन कॉफी, या किसी अन्य प्रासंगिक वर्तमान घटना के बारे में उनकी राय के बारे में पूछा। 

  1. शानदार 
  2. महान
  3. बहुत अच्छा 

मैंने दोषी पक्ष के संदर्भों को हटाने के लिए ट्विटर पोस्ट को क्रॉप किया है, लेकिन यह सर्वेक्षण के अंतिम परिणामों का वास्तविक संपूर्ण चार्ट है। इस तरह के सर्वेक्षण असामान्य नहीं हैं। जाहिर है, प्रतिक्रियाओं के परिणामस्वरूप डेटा से बनाया गया कोई भी चार्ट दिखाएगा कि प्रश्न में कॉफी को याद नहीं करना है।  

समस्या यह है कि यदि आपको यह सर्वेक्षण दिया गया होता और आपकी सोच के अनुरूप कोई प्रतिक्रिया नहीं मिलती, तो आप सर्वेक्षण को छोड़ देते। अविश्वसनीय डेटा कैसे बनाया जा सकता है, इसका एक चरम उदाहरण हो सकता है। खराब सर्वेक्षण डिजाइन, हालांकि, कम प्रतिक्रियाएं दे सकता है और जो प्रतिक्रिया देते हैं उनकी केवल एक ही राय है, यह केवल डिग्री की बात है। डेटा पक्षपाती है।

डेटा पूर्वाग्रह का यह दूसरा उदाहरण "की फाइलों से है"सबसे खराब COVID 19 भ्रामक रेखांकन". 

फिर, यह सूक्ष्म है और पूरी तरह से स्पष्ट नहीं है। बार ग्राफ फ्लोरिडा में एक काउंटी के लिए समय के साथ सकारात्मक COVID-19 मामलों के प्रतिशत में एक चिकनी – लगभग बहुत चिकनी – गिरावट दिखाता है। आप आसानी से यह निष्कर्ष निकाल सकते हैं कि मामलों में कमी आ रही है। यह बढ़िया है, विज़ुअलाइज़ेशन डेटा का सटीक रूप से प्रतिनिधित्व करता है। समस्या डेटा में है। तो, यह एक अधिक कपटी पूर्वाग्रह है क्योंकि आप इसे नहीं देख सकते हैं। यह डेटा में बेक किया हुआ है। आपको जिन प्रश्नों को पूछने की आवश्यकता है, उनमें शामिल हैं, किसका परीक्षण किया जा रहा है? दूसरे शब्दों में, भाजक क्या है, या जिसकी जनसंख्या हम प्रतिशत देख रहे हैं। धारणा यह है कि यह पूरी आबादी है, या कम से कम, एक प्रतिनिधि नमूना है।

हालांकि, इस अवधि के दौरान, इस काउंटी में, सीमित संख्या में लोगों को ही परीक्षण दिए गए थे। उन्हें COVID जैसे लक्षण होने चाहिए थे, या हाल ही में हॉट स्पॉट की सूची में किसी देश की यात्रा की थी। इसके अतिरिक्त परिणामों को भ्रमित करने वाला तथ्य यह है कि प्रत्येक सकारात्मक परीक्षण की गणना की गई और प्रत्येक नकारात्मक परीक्षण की गणना की गई। आमतौर पर, जब किसी व्यक्ति ने सकारात्मक परीक्षण किया, तो वे फिर से परीक्षण करेंगे जब वायरस ने अपना कोर्स चलाया था और नकारात्मक परीक्षण करेगा। तो, एक अर्थ में, प्रत्येक सकारात्मक मामले के लिए, एक नकारात्मक परीक्षण मामला होता है जो इसे रद्द कर देता है। अधिकांश परीक्षण नकारात्मक हैं और प्रत्येक व्यक्ति के नकारात्मक परीक्षणों को गिना गया। आप देख सकते हैं कि कैसे डेटा पक्षपाती है और निर्णय लेने के लिए विशेष रूप से उपयोगी नहीं है। 

एआई इनपुट और प्रशिक्षण पक्षपाती है

कम से कम दो तरीके हैं जिनमें एआई पक्षपाती परिणाम दे सकता है: पक्षपाती डेटा से शुरू करना, या वैध डेटा को संसाधित करने के लिए पक्षपाती एल्गोरिदम का उपयोग करना।  

पक्षपाती इनपुट

हम में से कई लोग इस धारणा के तहत हैं कि एआई पर संख्याओं को कम करने, इसके एल्गोरिदम को लागू करने और डेटा के एक विश्वसनीय विश्लेषण को थूकने के लिए भरोसा किया जा सकता है। आर्टिफिशियल इंटेलिजेंस केवल उतना ही स्मार्ट हो सकता है जितना इसे प्रशिक्षित किया जाता है। यदि जिस डेटा पर इसे प्रशिक्षित किया गया है, वह अपूर्ण है, तो परिणाम या निष्कर्ष पर भी भरोसा नहीं किया जा सकेगा। सर्वेक्षण पूर्वाग्रह के मामले के समान, ऐसे कई तरीके हैं जिनसे डेटा हो सकता है झुका हुआ मशीन लर्निंग में:.  

  • नमूना पूर्वाग्रह - प्रशिक्षण डेटासेट पूरी आबादी का प्रतिनिधि नहीं है।
  • बहिष्करण पूर्वाग्रह - कभी-कभी जो बाहरी प्रतीत होता है वह वास्तव में मान्य होता है, या जहां हम शामिल करने के लिए रेखा खींचते हैं (ज़िप कोड, तिथियां, आदि)।
  • मापन पूर्वाग्रह - सम्मेलन हमेशा मेनिस्कस के केंद्र और नीचे से मापना है, उदाहरण के लिए, वॉल्यूमेट्रिक फ्लास्क या टेस्ट ट्यूब (पारा को छोड़कर) में तरल पदार्थ को मापते समय।
  • पूर्वाग्रह को याद करें - जब शोध प्रतिभागियों की स्मृति पर निर्भर करता है।
  • प्रेक्षक पूर्वाग्रह - वैज्ञानिक, सभी मनुष्यों की तरह, यह देखने के लिए अधिक इच्छुक हैं कि वे क्या देखने की उम्मीद करते हैं।
  • सेक्सिस्ट और नस्लवादी पूर्वाग्रह - सेक्स या जाति का अधिक या कम प्रतिनिधित्व किया जा सकता है।  
  • संघ पूर्वाग्रह - डेटा रूढ़ियों को पुष्ट करता है

एआई को विश्वसनीय परिणाम देने के लिए, इसके प्रशिक्षण डेटा को वास्तविक दुनिया का प्रतिनिधित्व करने की आवश्यकता है। जैसा कि हमने पिछले ब्लॉग लेख में चर्चा की है, डेटा तैयार करना महत्वपूर्ण है और किसी भी अन्य डेटा प्रोजेक्ट की तरह। अविश्वसनीय डेटा मशीन लर्निंग सिस्टम को गलत सबक सिखा सकता है और इसके परिणामस्वरूप गलत निष्कर्ष निकलेगा। उस ने कहा, "सभी डेटा पक्षपाती हैं। यह व्यामोह नहीं है। यह तथ्य है।" - डॉ संजीव एम नारायण, स्टैनफोर्ड यूनिवर्सिटी स्कूल ऑफ मेडिसिन।

प्रशिक्षण के लिए पक्षपाती डेटा का उपयोग करने से कई उल्लेखनीय एआई विफलताएं हुई हैं। (उदाहरण यहाँ उत्पन्न करें और यहाँ उत्पन्न करें, अनुसंधान यहाँ उत्पन्न करें..)

पक्षपाती एल्गोरिदम

एक एल्गोरिथ्म नियमों का एक समूह है जो एक इनपुट को स्वीकार करता है और एक व्यावसायिक समस्या का उत्तर देने के लिए आउटपुट बनाता है। वे अक्सर अच्छी तरह से परिभाषित निर्णय वृक्ष होते हैं। एल्गोरिदम ब्लैक बॉक्स की तरह महसूस करते हैं। कोई भी निश्चित नहीं है कि वे कैसे काम करते हैं, अक्सर, यहां तक ​​कि नहीं कंपनियां जो उनका उपयोग करती हैं. ओह, और वे अक्सर मालिकाना होते हैं। उनकी रहस्यमय और जटिल प्रकृति एक कारण है कि पक्षपाती एल्गोरिदम इतने कपटी हैं। . 

चिकित्सा, मानव संसाधन या वित्त में एआई एल्गोरिदम पर विचार करें जो दौड़ को ध्यान में रखता है। यदि दौड़ एक कारक है, तो एल्गोरिथ्म नस्लीय रूप से अंधा नहीं हो सकता। यह सैद्धांतिक नहीं है। एआई का उपयोग करके वास्तविक दुनिया में इस तरह की समस्याओं की खोज की गई है को काम पर रखने, सवारी शेयर, ऋण का आवेदनएस, और गुर्दा प्रत्यारोपण

लब्बोलुआब यह है कि यदि आपका डेटा या एल्गोरिदम खराब है, बेकार से भी बदतर है, तो वे खतरनाक हो सकते हैं। एक ऐसी चीज है जो "एल्गोरिथम ऑडिट।" इसका लक्ष्य संगठनों को एल्गोरिथम से संबंधित संभावित जोखिमों की पहचान करने में मदद करना है क्योंकि यह निष्पक्षता, पूर्वाग्रह और भेदभाव से संबंधित है। कहीं और, फेसबुक एआई में पूर्वाग्रह से लड़ने के लिए एआई का उपयोग कर रहा है।

लोग पक्षपाती हैं

हमारे पास समीकरण के दोनों तरफ के लोग हैं। लोग विश्लेषण की तैयारी कर रहे हैं और लोग जानकारी प्राप्त कर रहे हैं। शोधकर्ता हैं और पाठक हैं। किसी भी संचार में, प्रसारण या स्वागत में समस्या हो सकती है।

उदाहरण के लिए मौसम को लें। "बारिश की संभावना" का क्या अर्थ है? सबसे पहले, मौसम विज्ञानियों का क्या मतलब है जब वे कहते हैं कि बारिश की संभावना है? अमेरिकी सरकार के अनुसार राष्ट्रीय मौसम सेवा, बारिश की संभावना, या जिसे वे वर्षा की संभावना (पीओपी) कहते हैं, मौसम के पूर्वानुमान में सबसे कम समझे जाने वाले तत्वों में से एक है। इसकी एक मानक परिभाषा है: "वर्षा की संभावना निर्दिष्ट समय अवधि में दिए गए पूर्वानुमान क्षेत्र में दिए गए क्षेत्र में वर्षा की 0.01″ इंच [एसआईसी] [एसआईसी] अधिक की सांख्यिकीय संभावना है।" "दिया गया क्षेत्र" पूर्वानुमान क्षेत्र है, या बीroadडाली क्षेत्र। इसका मतलब है कि वर्षा की आधिकारिक संभावना इस विश्वास पर निर्भर करती है कि क्षेत्र में कहीं बारिश होगी और उस क्षेत्र का प्रतिशत जो गीला हो जाएगा। दूसरे शब्दों में, यदि मौसम विज्ञानी को विश्वास है कि पूर्वानुमान क्षेत्र में बारिश होने वाली है (आत्मविश्वास = 100%), तो पीओपी उस क्षेत्र के हिस्से का प्रतिनिधित्व करता है जो बारिश प्राप्त करेगा।  

पेरिस स्ट्रीट; जरुरत का समय,गुस्ताव कैलेबोटे (1848-1894) शिकागो कला संस्थान पब्लिक डोमेन

बारिश की संभावना आत्मविश्वास और क्षेत्र दोनों पर निर्भर करती है। मुझे नहीँ पता था। मुझे संदेह है कि अन्य लोग भी इसे नहीं जानते हैं। लगभग 75% आबादी ठीक से समझ नहीं पाती है कि पीओपी की गणना कैसे की जाती है, या इसका प्रतिनिधित्व करने के लिए क्या मतलब है। तो, क्या हमें मूर्ख बनाया जा रहा है, या यह धारणा की समस्या है। आइए इसे वर्षा धारणा कहते हैं। क्या हम मौसम के भविष्यवक्ता को दोष देते हैं? निष्पक्ष होने के लिए, कुछ है भ्रम मौसम पूर्वानुमानकर्ताओं के बीच भी। एक में सर्वेक्षणसर्वेक्षण में शामिल 43% मौसम विज्ञानियों ने कहा कि पीओपी की परिभाषा में बहुत कम एकरूपता है।

विश्लेषण ही पक्षपाती है

पांच प्रभावित करने वाले कारकों में से, विश्लेषण ही सबसे आश्चर्यजनक हो सकता है। वैज्ञानिक अनुसंधान में जिसके परिणामस्वरूप एक समीक्षा पत्र प्रकाशित होता है, आमतौर पर एक सिद्धांत की परिकल्पना की जाती है, परिकल्पना का परीक्षण करने के लिए विधियों को परिभाषित किया जाता है, डेटा एकत्र किया जाता है, फिर डेटा का विश्लेषण किया जाता है। विश्लेषण का प्रकार जो किया जाता है और यह कैसे किया जाता है, यह निष्कर्षों को कैसे प्रभावित करता है, इसकी सराहना नहीं की जाती है। में एक काग़ज़ इस वर्ष की शुरुआत (जनवरी 2022) में, इंटरनेशनल जर्नल ऑफ कैंसर में प्रकाशित, लेखकों ने मूल्यांकन किया कि क्या यादृच्छिक नियंत्रित परीक्षणों और पूर्वव्यापी अवलोकन संबंधी अध्ययनों के परिणाम हैं। उनके निष्कर्षों ने निष्कर्ष निकाला कि,

तुलनात्मक प्रभावशीलता अनुसंधान में विश्लेषणात्मक विकल्पों को बदलकर, हमने विपरीत परिणाम उत्पन्न किए। हमारे परिणाम बताते हैं कि कुछ पूर्वव्यापी अवलोकन संबंधी अध्ययनों से पता चल सकता है कि एक उपचार रोगियों के लिए परिणामों में सुधार करता है, जबकि एक अन्य समान अध्ययन में यह पाया जा सकता है कि यह केवल विश्लेषणात्मक विकल्पों पर आधारित नहीं है।

अतीत में, एक वैज्ञानिक पत्रिका लेख पढ़ते समय, यदि आप मेरे जैसे हैं, तो आपने सोचा होगा कि परिणाम या निष्कर्ष सभी डेटा के बारे में हैं। अब, ऐसा प्रतीत होता है कि परिणाम, या प्रारंभिक परिकल्पना की पुष्टि या खंडन भी विश्लेषण की विधि पर निर्भर हो सकता है।

अन्य अध्ययन इसी तरह के परिणाम मिले। लेख, अनेक विश्लेषक, एक डेटा सेट: पारदर्शी बनाना कि विश्लेषणात्मक विकल्पों में परिवर्तन परिणामों को कैसे प्रभावित करते हैं, वर्णन करता है कि कैसे उन्होंने विश्लेषण करने के लिए 29 अलग-अलग टीमों को एक ही डेटा सेट दिया। डेटा विश्लेषण को अक्सर एक सख्त, अच्छी तरह से परिभाषित प्रक्रिया के रूप में देखा जाता है जो एक निष्कर्ष की ओर ले जाता है।  

पद्धतिविदों के विरोध के बावजूद, इस तथ्य को नजरअंदाज करना आसान है कि परिणाम चुनी हुई विश्लेषणात्मक रणनीति पर निर्भर हो सकते हैं, जो स्वयं सिद्धांत, मान्यताओं और पसंद के बिंदुओं से प्रभावित होते हैं। कई मामलों में, एक शोध प्रश्न पर आधारित डेटा का मूल्यांकन करने के लिए कई उचित (और कई अनुचित) दृष्टिकोण हैं।

शोधकर्ताओं ने डेटा के विश्लेषण को क्राउड-सोर्स किया और इस निष्कर्ष पर पहुंचे कि सभी शोधों में व्यक्तिपरक निर्णय शामिल हैं - जिसमें किस प्रकार के विश्लेषण का उपयोग करना शामिल है - जो अध्ययन के अंतिम परिणाम को प्रभावित कर सकता है।

दूसरे की सिफारिश शोधकर्ता जिन्होंने उपरोक्त अध्ययन का विश्लेषण किया है, उन्हें निर्णय लेने या निष्कर्ष निकालने में एक ही पेपर का उपयोग करते समय सतर्क रहना है।

विश्लेषिकी में पूर्वाग्रह को संबोधित करना

यह केवल एक चेतावनी देने वाली कहानी है। ज्ञान हमें घोटालों के झांसे में आने से बचा सकता है। संभावित तरीकों के बारे में जितना अधिक जागरूक एक स्कैनर हमें मूर्ख बनाने के लिए उपयोग कर सकता है, उतनी ही कम संभावना है कि हम एक पिकपॉकेट की गलत दिशा, या एक पोंजी नाटक की चिकनी बात कह सकते हैं। तो यह संभावित पूर्वाग्रहों को समझने और पहचानने के साथ है जो हमारे विश्लेषण को प्रभावित करते हैं। यदि हम संभावित प्रभावों से अवगत हैं, तो हम कहानी को बेहतर ढंग से प्रस्तुत करने और अंततः बेहतर निर्णय लेने में सक्षम हो सकते हैं।  

बीआई/एनालिटिक्ससंयुक्त राष्ट्र वर्गीकृत
माइक्रोसॉफ्ट एक्सेल #1 एनालिटिक्स टूल क्यों है?
एक्सेल #1 एनालिटिक्स टूल क्यों है?

एक्सेल #1 एनालिटिक्स टूल क्यों है?

  यह सस्ता और आसान है. Microsoft Excel स्प्रेडशीट सॉफ़्टवेयर संभवतः व्यावसायिक उपयोगकर्ता के कंप्यूटर पर पहले से ही स्थापित है। और आज कई उपयोगकर्ता हाई स्कूल या उससे भी पहले से माइक्रोसॉफ्ट ऑफिस सॉफ़्टवेयर के संपर्क में हैं। यह बिना सोचे समझे दी गई प्रतिक्रिया...

विस्तार में पढ़ें

बीआई/एनालिटिक्ससंयुक्त राष्ट्र वर्गीकृत
अपनी अंतर्दृष्टि को व्यवस्थित करें: एनालिटिक्स स्प्रिंग क्लीनिंग के लिए एक गाइड

अपनी अंतर्दृष्टि को व्यवस्थित करें: एनालिटिक्स स्प्रिंग क्लीनिंग के लिए एक गाइड

अपनी अंतर्दृष्टि को व्यवस्थित करें एनालिटिक्स स्प्रिंग क्लीनिंग के लिए एक गाइड नया साल एक धमाके के साथ शुरू होता है; साल के अंत की रिपोर्टें बनाई जाती हैं और उनकी जांच की जाती है, और फिर हर कोई एक सुसंगत कार्यसूची में तय हो जाता है। जैसे-जैसे दिन बड़े होते हैं और पेड़ और फूल खिलते हैं,...

विस्तार में पढ़ें

बीआई/एनालिटिक्ससंयुक्त राष्ट्र वर्गीकृत
एनवाई स्टाइल बनाम शिकागो स्टाइल पिज्जा: एक स्वादिष्ट बहस

एनवाई स्टाइल बनाम शिकागो स्टाइल पिज्जा: एक स्वादिष्ट बहस

हमारी लालसाओं को संतुष्ट करते समय, कुछ चीज़ें पिज़्ज़ा के गरमा गरम टुकड़े के आनंद की बराबरी कर सकती हैं। न्यूयॉर्क-शैली और शिकागो-शैली पिज्जा के बीच बहस ने दशकों से भावुक चर्चा को जन्म दिया है। प्रत्येक शैली की अपनी अनूठी विशेषताएं और समर्पित प्रशंसक होते हैं...

विस्तार में पढ़ें

बीआई/एनालिटिक्सकॉग्नोस एनालिटिक्स
कॉग्नोस क्वेरी स्टूडियो
आपके उपयोगकर्ता अपना क्वेरी स्टूडियो चाहते हैं

आपके उपयोगकर्ता अपना क्वेरी स्टूडियो चाहते हैं

आईबीएम कॉग्नोस एनालिटिक्स 12 की रिलीज के साथ, क्वेरी स्टूडियो और एनालिसिस स्टूडियो की लंबे समय से घोषित अस्वीकृति अंततः उन स्टूडियो को छोड़कर कॉग्नोस एनालिटिक्स के एक संस्करण के साथ वितरित की गई। हालाँकि इसमें लगे अधिकांश लोगों के लिए यह आश्चर्य की बात नहीं होनी चाहिए...

विस्तार में पढ़ें

बीआई/एनालिटिक्ससंयुक्त राष्ट्र वर्गीकृत
क्या टेलर स्विफ्ट प्रभाव वास्तविक है?

क्या टेलर स्विफ्ट प्रभाव वास्तविक है?

कुछ आलोचकों का सुझाव है कि वह सुपर बाउल टिकट की कीमतें बढ़ा रही हैं, इस सप्ताहांत के सुपर बाउल के टेलीविजन इतिहास में शीर्ष 3 सबसे ज्यादा देखे जाने वाले कार्यक्रमों में से एक होने की उम्मीद है। संभवतः पिछले वर्ष की रिकॉर्ड-सेटिंग संख्या से अधिक और शायद 1969 के चंद्रमा से भी अधिक...

विस्तार में पढ़ें

बीआई/एनालिटिक्स
एनालिटिक्स कैटलॉग - एनालिटिक्स इकोसिस्टम में एक उभरता सितारा

एनालिटिक्स कैटलॉग - एनालिटिक्स इकोसिस्टम में एक उभरता सितारा

परिचय एक मुख्य प्रौद्योगिकी अधिकारी (सीटीओ) के रूप में, मैं हमेशा उभरती प्रौद्योगिकियों की तलाश में रहता हूं जो विश्लेषण के प्रति हमारे दृष्टिकोण को बदल देती हैं। ऐसी ही एक तकनीक जिसने पिछले कुछ वर्षों में मेरा ध्यान खींचा है और जिसमें अपार संभावनाएं हैं, वह है एनालिटिक्स...

विस्तार में पढ़ें