विश्लेषण खोटे

by ऑगस्ट 31, 2022BI/Analytics0 टिप्पण्या

विश्लेषण खोटे

विश्लेषणाचा पूर्वाग्रह

 

मार्क ट्वेन वादातीतपणे असे काहीतरी म्हणाला, “तीन प्रकारचे खोटे आहेत: खोटे, शापित खोटे आणि विश्लेषण. " 

आम्ही गृहीत धरतो की विश्लेषणे आम्हाला उपयुक्त, कृती करण्यायोग्य अंतर्दृष्टी देतात. अगदी अत्याधुनिक सॉफ्टवेअर आणि सिस्टीमद्वारे दिलेल्या उत्तरांवर आपले स्वतःचे आणि इतरांचे पक्षपाती कसे प्रभाव टाकतात हे आपल्याला सहसा लक्षात येत नाही. काहीवेळा, आपण अप्रामाणिकपणे हाताळले जाऊ शकतो, परंतु, अधिक सामान्यपणे, हे सूक्ष्म आणि बेशुद्ध पक्षपाती असू शकतात जे आपल्या विश्लेषणामध्ये रेंगाळतात. पक्षपाती विश्लेषणामागील प्रेरणा अनेक पटींनी आहे. काहीवेळा आपण विज्ञानाकडून अपेक्षा करत असलेल्या निष्पक्ष परिणामांवर 1) डेटा कसा सादर केला जातो यामधील सूक्ष्म निवडी, 2) विसंगत किंवा गैर-प्रतिनिधी डेटा, 3) एआय सिस्टम कसे प्रशिक्षित केले जातात, 4) संशोधकांचे अज्ञान, अक्षमता किंवा इतर प्रयत्न करतात. कथा सांगण्यासाठी, 5) विश्लेषण स्वतः.    

सादरीकरण पक्षपाती आहे

काही खोटे इतरांपेक्षा शोधणे सोपे आहे. जेव्हा तुम्हाला काय शोधायचे आहे हे माहित असेल तेव्हा तुम्ही अधिक सहजपणे संभाव्य शोधू शकता दिशाभूल करणारे आलेख आणि तक्ते. 

किमान आहेत चुकीच्या पद्धतीने डेटा प्रदर्शित करण्याचे पाच मार्ग: 1) मर्यादित डेटा सेट दर्शवा, 2). असंबंधित सहसंबंध दर्शवा, 3) चुकीचा डेटा दर्शवा, 4) अपारंपरिकपणे डेटा दर्शवा, किंवा 5). अति-सरलीकृत डेटा दर्शवा.

मर्यादित डेटा सेट दर्शवा

डेटा मर्यादित करणे, किंवा डेटाचा नॉन-यादृच्छिक विभाग निवडणे अनेकदा मोठ्या चित्राशी सुसंगत नसलेली कथा सांगू शकते. खराब सॅम्पलिंग, किंवा चेरी पिकिंग, जेव्हा विश्लेषक मोठ्या गटाचे प्रतिनिधित्व करण्यासाठी गैर-प्रतिनिधी नमुना वापरतो. 

मार्च 2020 मध्ये, जॉर्जियाचा सार्वजनिक आरोग्य विभाग हा तक्ता त्याच्या दैनंदिन स्थिती अहवालाचा भाग म्हणून प्रकाशित केला. तो प्रत्यक्षात उत्तरांपेक्षा अधिक प्रश्न निर्माण करतो.  

गहाळ झालेल्या गोष्टींपैकी एक म्हणजे संदर्भ. उदाहरणार्थ, प्रत्येक वयोगटासाठी लोकसंख्येची टक्केवारी किती आहे हे जाणून घेणे उपयुक्त ठरेल. साध्या दिसणार्‍या पाई चार्टमधील आणखी एक समस्या म्हणजे असमान वयोगट. 0-17 ला 18 वर्षे आहेत, 18-59 ला 42, 60+ ओपन एंडेड आहेत, परंतु जवळपास 40 वर्षे आहेत. निष्कर्ष, एकट्या या तक्त्यानुसार, बहुतेक प्रकरणे 18-59 वयोगटातील आहेत. 60+ वर्षांच्या वयोगटावर कोविड प्रकरणांचा कमी गंभीर परिणाम झालेला दिसतो. पण ही संपूर्ण कथा नाही.

तुलनेसाठी, वर सेट केलेला हा भिन्न डेटा सीडीसी वेबसाइट प्रत्येक वयोगटातील यूएस लोकसंख्येच्या टक्केवारीवरील अतिरिक्त डेटासह वयोगटानुसार कोविड प्रकरणे चार्ट.  

हे अधिक चांगले आहे. आमच्याकडे अधिक संदर्भ आहेत. आपण पाहू शकतो की 18-29, 30-39, 40-49 या सर्व वयोगटांमध्ये लोकसंख्येतील वयोगटाच्या टक्केवारीपेक्षा प्रकरणांची टक्केवारी जास्त आहे. अजूनही काही असमान वयोगट आहेत. 16-17 हा वेगळा वयोगट का आहे? तरीही ही संपूर्ण कथा नाही, परंतु पंडितांनी स्तंभ लिहिले आहेत, भविष्यवाण्या केल्या आहेत आणि यापेक्षा कमी गोष्टींवर आदेश दिले आहेत. अर्थात, कोविडमध्ये, वय व्यतिरिक्त अनेक बदल आहेत जे पॉझिटिव्ह केस म्हणून गणले जाण्यावर परिणाम करतात: लसीकरण स्थिती, चाचण्यांची उपलब्धता, चाचण्यांची संख्या, कॉमोरबिडीटीज आणि इतर अनेक. प्रकरणांची संख्या, स्वतःच, एक अपूर्ण चित्र प्रदान करते. कोविड प्रत्येक वयोगटावर कसा परिणाम करते हे पाहण्यासाठी बहुतेक तज्ञ मृत्यूची संख्या, किंवा प्रति 100,000 लोकसंख्येच्या मृत्यूची टक्केवारी किंवा केस-मृत्यू देखील पाहतात.

असंबंधित सहसंबंध दर्शवा

साहजिकच आहे मजबूत परस्परसंबंध विज्ञान, अंतराळ आणि तंत्रज्ञानावरील यूएसचा खर्च आणि फाशी, गळा दाबून आणि गुदमरून आत्महत्या करणार्‍यांची संख्या. सहसंबंध 99.79% आहे, जवळजवळ एक परिपूर्ण जुळणी आहे.  

तथापि, हे कोणत्या ना कोणत्या प्रकारे संबंधित आहेत किंवा एक कारणीभूत आहे असे कोण करेल? इतर कमी टोकाची उदाहरणे आहेत, परंतु कमी बनावट नाहीत. लेटर्स इन विनिंग वर्ड ऑफ स्क्रिप्स नॅशनल स्पेलिंग बी आणि व्हेनोमस स्पायडर्सद्वारे मारल्या गेलेल्या लोकांची संख्या यांच्यात समान मजबूत संबंध आहे. योगायोग? तू निर्णय घे.

कमी दिशाभूल करणारा हा डेटा चार्ट करण्याचा दुसरा मार्ग म्हणजे दोन्ही Y-अक्षांवर शून्य समाविष्ट करणे.

डेटा चुकीचा दाखवा

कडून डेटा खराब कसा प्रदर्शित करायचा, यूएस स्टेट ऑफ जॉर्जियाने पुष्टी झालेल्या कोविड-5 प्रकरणांची सर्वाधिक संख्या असलेले शीर्ष 19 देश सादर केले.

कायदेशीर दिसते, बरोबर? पुष्टी झालेल्या COVID-19 प्रकरणांमध्ये स्पष्टपणे घसरण दिसून येत आहे. आपण एक्स-अक्ष वाचू शकता? X-अक्ष वेळ दर्शवतो. सामान्यतः, तारखा डावीकडून उजवीकडे वाढतील. येथे, आपण X-अक्षावर थोडा वेळ प्रवास पाहतो: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

थांबा? काय? X-अक्ष कालक्रमानुसार क्रमवारी लावलेला नाही. म्हणून, ट्रेंड जितका छान दिसतो तितका, आम्ही कोणताही निष्कर्ष काढू शकत नाही. तारखांची ऑर्डर दिल्यास, केसांच्या संख्येसाठी बार कोणत्याही प्रकारच्या ट्रेंडपेक्षा सॉटूथ पॅटर्न अधिक दर्शवतात.

कॅलेंडरप्रमाणे तारखांची क्रमवारी लावणे हे येथे सोपे निराकरण आहे.

अपारंपरिकपणे डेटा दर्शवा

आम्ही सर्व व्यस्त आहोत. आपल्या मेंदूने आपल्याला आपल्या जगात सुसंगत असलेल्या गृहितकांवर आधारित द्रुत निर्णय घेण्यास शिकवले आहे. उदाहरणार्थ, मी पाहिलेला प्रत्येक आलेख x- आणि y- अक्षांची मीटिंग शून्यावर किंवा सर्वात कमी मूल्ये दाखवतो. या तक्त्याकडे थोडक्यात पाहता, फ्लोरिडाच्या परिणामाबद्दल तुम्ही कोणते निष्कर्ष काढू शकता “तुमचा ग्राउंड कायदा उभा करा."? मला हे मान्य करायला लाज वाटते, पण या आलेखाने मला सुरुवातीला फसवले. तुमची नजर मजकूर आणि ग्राफिकच्या मध्यभागी असलेल्या बाणाकडे सोयीस्करपणे खेचली जाते. या आलेखात खाली वर आहे. हे खोटे असू शकत नाही - डेटा सर्व काही ठीक आहे. पण, मला असे वाटते की ते फसवणूक करण्यासाठी आहे. तुम्ही ते अजून पाहिले नसेल तर, y-अक्षावरील शून्य शीर्षस्थानी आहे. तर, डेटा ट्रेंड कमी झाल्यामुळे, याचा अर्थ अधिक मृत्यू. हा तक्ता दाखवतो की बंदुकीचा वापर करून हत्यांची संख्या वाढली 2005 नंतर, ट्रेंड चालू द्वारे सूचित खाली.

अति-सरलीकृत डेटा दर्शवा

जेव्हा विश्लेषक सिम्पसनच्या विरोधाभासाचा फायदा घेतात तेव्हा डेटाच्या अति-सरलीकरणाचे एक उदाहरण पाहिले जाऊ शकते. ही एक घटना आहे जी जेव्हा एकत्रित डेटा उपसंचांमध्ये विभक्त केला जातो त्यापेक्षा वेगळा निष्कर्ष दर्शवितो तेव्हा घडते. उच्च-स्तरीय एकत्रित टक्केवारी पाहताना या सापळ्यात पडणे सोपे आहे. कामावर सिम्पसनच्या विरोधाभासाच्या स्पष्ट उदाहरणांपैकी एक संबंधित आहे फलंदाजीची सरासरी.  

येथे आपण पाहतो की डेरेक जेटरची 1995 आणि 1996 सीझनमधील डेव्हिड जस्टिसपेक्षा जास्त बॅटिंग सरासरी आहे. विरोधाभास समोर येतो जेव्हा आम्हाला हे लक्षात येते की न्यायमूर्तीने जेटरला त्या दोन्ही वर्षांच्या फलंदाजीच्या सरासरीमध्ये सर्वोत्तम केले. जर तुम्ही काळजीपूर्वक बघितले तर, जेटरकडे 4 मध्ये .1996 कमी सरासरीने 007 मध्ये अंदाजे 1996x अधिक अॅट-बॅट्स (भाजक) होते हे लक्षात आल्यावर त्याचा अर्थ होतो. तर, न्यायमूर्तीमध्ये अॅट-बॅट्सची संख्या अंदाजे 10x होती. 003 मध्ये 1995 उच्च सरासरी.

सादरीकरण सरळ दिसते, परंतु सिम्पसनच्या विरोधाभासाने, जाणूनबुजून किंवा नकळत, चुकीचे निष्कर्ष काढले आहेत. अलीकडे, लस आणि कोविड मृत्यूशी संबंधित बातम्यांमध्ये आणि सोशल मीडियावर सिम्पसनच्या विरोधाभासाची उदाहरणे आहेत. एक चार्ट 10-59 वर्षे वयोगटातील लोकांसाठी लसीकरण केलेले आणि लसीकरण न केलेले मृत्यू दरांची तुलना करणारा रेखा आलेख दाखवतो. चार्ट दाखवतो की लसीकरण न केलेल्यांचा मृत्यू दर सातत्याने कमी असतो. इथे काय चालले आहे?  

ही समस्या फलंदाजीच्या सरासरीप्रमाणेच आहे. या प्रकरणातील भाजक म्हणजे प्रत्येक वयोगटातील व्यक्तींची संख्या. आलेख भिन्न परिणाम असलेल्या गटांना एकत्र करतो. जर आपण वृद्ध वयोगट, 50-59, स्वतंत्रपणे पाहिल्यास, आपल्याला लसीकरण केलेले भाडे अधिक चांगले दिसते. त्याचप्रमाणे, जर आपण 10-49 वर पाहिले तर आपल्याला हे देखील दिसते की लसीकरण केलेले भाडे अधिक चांगले आहे. विरोधाभास म्हणजे, एकत्रित संच पाहताना, लसीकरण न केलेले परिणाम अधिक वाईट असल्याचे दिसून येते. अशा प्रकारे, तुम्ही डेटा वापरून विरुद्ध युक्तिवादासाठी केस तयार करू शकता.

डेटा पक्षपाती आहे

डेटावर नेहमी विश्वास ठेवता येत नाही. जरी वैज्ञानिक समुदायात, सर्वेक्षण केलेल्या एक तृतीयांश संशोधकांनी कबूल केले "संशयास्पद संशोधन पद्धती."  आणखी संशोधन फसवणूक शोधक म्हणतो, “डेटामध्ये - टेबल्स, रेषा आलेख, डेटा क्रमवारीत [- आम्ही प्रत्यक्षात शोधत आहोत त्यापेक्षा जास्त फसवणूक होण्याची शक्यता आहे. त्यांच्या स्वयंपाकघरातील टेबलावर बसलेला कोणीही स्प्रेडशीटमध्ये काही नंबर टाकू शकतो आणि एक रेषा आलेख बनवू शकतो जो खात्रीलायक वाटेल.”

हे प्रथम उदाहरणार्थ कोणीतरी तसे केले असे दिसते. मी असे म्हणत नाही की ही फसवणूक आहे, परंतु एक सर्वेक्षण म्हणून, ते केवळ माहितीपूर्ण निर्णयासाठी योगदान देणारा कोणताही डेटा व्युत्पन्न करत नाही. असे दिसते की सर्वेक्षणाने प्रतिसादकर्त्यांना गॅस स्टेशन कॉफी किंवा इतर काही संबंधित चालू कार्यक्रमाबद्दल त्यांचे मत विचारले आहे. 

  1. भव्य 
  2. ग्रेट
  3. खुप छान 

दोषी पक्षाचे संदर्भ काढून टाकण्यासाठी मी ट्विटर पोस्ट क्रॉप केली आहे, परंतु सर्वेक्षणाच्या अंतिम निकालांचा हा वास्तविक संपूर्ण तक्ता आहे. असे सर्वेक्षण असामान्य नाहीत. साहजिकच, प्रतिसादांच्या परिणामी डेटावरून तयार केलेला कोणताही तक्ता विचारात असलेली कॉफी चुकवू नये असे दर्शवेल.  

समस्या अशी आहे की जर तुम्हाला हे सर्वेक्षण दिले गेले असते आणि तुमच्या विचारांशी जुळणारा प्रतिसाद मिळाला नाही, तर तुम्ही सर्वेक्षण वगळाल. अविश्वसनीय डेटा कसा तयार केला जाऊ शकतो याचे हे एक अत्यंत उदाहरण असू शकते. तथापि, खराब सर्वेक्षण डिझाइनमुळे कमी प्रतिसाद मिळू शकतात आणि जे प्रतिसाद देतात त्यांचे फक्त एकच मत असते, ही फक्त पदवीची बाब आहे. डेटा पक्षपाती आहे.

डेटा बायसचे हे दुसरे उदाहरण “च्या फाइल्सचे आहे.सर्वात वाईट COVID 19 दिशाभूल करणारे आलेख. " 

पुन्हा, हे सूक्ष्म आहे आणि पूर्णपणे स्पष्ट नाही. बार आलेख एक गुळगुळीत - जवळजवळ खूप गुळगुळीत - वेळोवेळी फ्लोरिडामधील काउंटीसाठी सकारात्मक COVID-19 प्रकरणांच्या टक्केवारीत घट दर्शवितो. केसेस कमी होत आहेत असा निष्कर्ष तुम्ही सहजपणे काढू शकता. हे छान आहे, व्हिज्युअलायझेशन डेटाचे अचूक प्रतिनिधित्व करते. समस्या डेटामध्ये आहे. तर, हे अधिक कपटी पूर्वाग्रह आहे कारण आपण ते पाहू शकत नाही. ते डेटामध्ये बेक केले आहे. तुम्हाला जे प्रश्न विचारायचे आहेत, त्यात कोणाची चाचणी घेतली जात आहे? दुसऱ्या शब्दांत, भाजक म्हणजे काय किंवा ज्या लोकसंख्येची आपण टक्केवारी पाहत आहोत. गृहीतक अशी आहे की ही संपूर्ण लोकसंख्या आहे, किंवा किमान, एक प्रतिनिधी नमुना आहे.

तथापि, या कालावधीत, या काउंटीमध्ये, चाचण्या केवळ मर्यादित लोकांसाठीच देण्यात आल्या. त्यांना कोविड सारखी लक्षणे असणे आवश्यक होते किंवा त्यांनी अलीकडेच हॉट स्पॉट्सच्या यादीतील देशाचा प्रवास केला होता. या व्यतिरिक्त परिणाम गोंधळात टाकणारे हे तथ्य आहे की प्रत्येक सकारात्मक चाचणी मोजली गेली आणि प्रत्येक नकारात्मक चाचणी मोजली गेली. सामान्यतः, जेव्हा एखादी व्यक्ती सकारात्मक चाचणी घेते, तेव्हा ते पुन्हा चाचणी घेतात जेव्हा व्हायरसने त्याचा मार्ग चालू केला होता आणि नकारात्मक चाचणी केली जाते. तर, एका अर्थाने, प्रत्येक पॉझिटिव्ह केससाठी, एक नकारात्मक चाचणी केस असते ज्यामुळे ते रद्द होते. बहुसंख्य चाचण्या नकारात्मक आहेत आणि प्रत्येक व्यक्तीच्या नकारात्मक चाचण्या मोजल्या गेल्या आहेत. डेटा कसा पक्षपाती आहे आणि निर्णय घेण्यासाठी विशेषतः उपयुक्त नाही हे तुम्ही पाहू शकता. 

AI इनपुट आणि प्रशिक्षण पक्षपाती आहे

AI मुळे पक्षपाती परिणाम मिळू शकतात असे किमान दोन मार्ग आहेत: पक्षपाती डेटापासून सुरुवात करणे किंवा वैध डेटावर प्रक्रिया करण्यासाठी पक्षपाती अल्गोरिदम वापरणे.  

पक्षपाती इनपुट

आपल्यापैकी बर्‍याच जणांना असे वाटते की AI वर विश्वास ठेवला जाऊ शकतो की संख्या कमी करणे, त्याचे अल्गोरिदम लागू करणे आणि डेटाचे विश्वसनीय विश्लेषण करणे. आर्टिफिशियल इंटेलिजन्स जितकी प्रशिक्षित असेल तितकीच स्मार्ट असू शकते. ज्या डेटावर तो प्रशिक्षित आहे तो अपूर्ण असल्यास, परिणाम किंवा निष्कर्षांवरही विश्वास ठेवता येणार नाही. सर्वेक्षण पूर्वाग्रहाच्या वरील प्रकरणाप्रमाणेच, डेटा असू शकतो असे अनेक मार्ग आहेत पक्षपाती मशीन लर्निंग मध्ये:.  

  • नमुना पूर्वाग्रह – प्रशिक्षण डेटासेट संपूर्ण लोकसंख्येचा प्रतिनिधी नाही.
  • बहिष्कार पूर्वाग्रह – काहीवेळा जे बाह्य असल्याचे दिसते ते प्रत्यक्षात वैध असतात किंवा, आपण काय समाविष्ट करावे यावर रेषा काढतो (पिन कोड, तारखा इ.).
  • मापन पूर्वाग्रह - नियम नेहमी मेनिस्कसच्या मध्यभागी आणि तळापासून मोजणे आहे, उदाहरणार्थ, व्हॉल्यूमेट्रिक फ्लास्क किंवा चाचणी ट्यूबमध्ये द्रव मोजताना (पारा वगळता.)
  • पूर्वाग्रह लक्षात ठेवा - जेव्हा संशोधन सहभागींच्या स्मरणशक्तीवर अवलंबून असते.
  • निरीक्षकांचा पूर्वाग्रह – सर्व मानवांप्रमाणेच शास्त्रज्ञ, त्यांना काय पाहण्याची अपेक्षा आहे हे पाहण्याकडे अधिक कल असतो.
  • लिंगवादी आणि वंशवादी पूर्वाग्रह – लिंग किंवा वंश जास्त किंवा कमी-प्रतिनिधी असू शकतात.  
  • असोसिएशन बायस - डेटा स्टिरिओटाइपला बळकटी देतो

AI ला विश्वासार्ह परिणाम मिळण्यासाठी, त्याचा प्रशिक्षण डेटा वास्तविक जगाचे प्रतिनिधित्व करणे आवश्यक आहे. आम्ही मागील ब्लॉग लेखात चर्चा केल्याप्रमाणे, डेटा तयार करणे हे इतर कोणत्याही डेटा प्रकल्पाप्रमाणेच महत्त्वाचे आहे. अविश्वसनीय डेटा मशीन लर्निंग सिस्टमला चुकीचा धडा शिकवू शकतो आणि परिणामी चुकीचा निष्कर्ष निघतो. ते म्हणाले, “सर्व डेटा पक्षपाती आहे. हे विडंबन नाही. ही वस्तुस्थिती आहे.” - डॉ. संजीव एम. नारायण, स्टॅनफोर्ड युनिव्हर्सिटी स्कूल ऑफ मेडिसिन.

प्रशिक्षणासाठी पक्षपाती डेटा वापरल्याने अनेक लक्षणीय AI अयशस्वी झाल्या आहेत. (उदाहरणे येथे आणि येथे, संशोधन येथे..)

पक्षपाती अल्गोरिदम

अल्गोरिदम हा नियमांचा एक संच आहे जो इनपुट स्वीकारतो आणि व्यवसाय समस्येचे उत्तर देण्यासाठी आउटपुट तयार करतो. ते अनेकदा चांगले-परिभाषित निर्णय झाडे आहेत. अल्गोरिदम ब्लॅक बॉक्ससारखे वाटतात. ते कसे कार्य करतात याची कोणालाही खात्री नसते, अनेकदा, अगदी नाही ज्या कंपन्या त्यांचा वापर करतात. अरेरे, आणि ते सहसा मालकीचे असतात. पक्षपाती अल्गोरिदम इतके कपटी का आहेत याचे एक कारण त्यांचे रहस्यमय आणि गुंतागुंतीचे स्वरूप आहे. . 

औषध, एचआर किंवा फायनान्समधील एआय अल्गोरिदम विचारात घ्या जे शर्यत विचारात घेतात. वंश हा घटक असल्यास, अल्गोरिदम वांशिकदृष्ट्या अंध असू शकत नाही. हे सैद्धांतिक नाही. AI in वापरून यासारख्या समस्या वास्तविक जगात शोधल्या गेल्या आहेत रोजगारात, राइड-शेअर, कर्ज अर्जएस, आणि मूत्रपिंड रोपण

तळ ओळ अशी आहे की जर तुमचा डेटा किंवा अल्गोरिदम खराब असतील, निरुपयोगीपेक्षा वाईट असतील तर ते धोकादायक असू शकतात. अशी एक गोष्ट आहे "अल्गोरिदमिक ऑडिट.” अल्गोरिदमशी संबंधित संभाव्य धोके ओळखण्यात संस्थांना मदत करणे हे उद्दिष्ट आहे कारण ते निष्पक्षता, पक्षपात आणि भेदभाव यांच्याशी संबंधित आहे. इतरत्र, फेसबुक AI मधील पक्षपाताशी लढण्यासाठी AI वापरत आहे.

लोक पक्षपाती आहेत

आपल्याकडे समीकरणाच्या दोन्ही बाजूचे लोक आहेत. लोक विश्लेषण तयार करत आहेत आणि लोकांना माहिती मिळत आहे. संशोधक आहेत आणि वाचक आहेत. कोणत्याही संप्रेषणामध्ये, प्रेषण किंवा रिसेप्शनमध्ये समस्या असू शकतात.

उदाहरणार्थ, हवामान घ्या. "पावसाची शक्यता" म्हणजे काय? प्रथम, हवामानशास्त्रज्ञ जेव्हा पाऊस पडण्याची शक्यता म्हणतात तेव्हा त्यांना काय म्हणायचे आहे? अमेरिकन सरकारच्या मते राष्ट्रीय हवामान सेवा, पावसाची शक्यता, किंवा ज्याला ते पर्जन्याची संभाव्यता (PoP) म्हणतात, हा हवामान अंदाजातील सर्वात कमी समजल्या जाणार्‍या घटकांपैकी एक आहे. त्याची एक मानक व्याख्या आहे: "पर्जन्यवृष्टीची संभाव्यता ही केवळ 0.01″ इंच [sic] पैकी [sic] अधिक पर्जन्यवृष्टीची संभाव्यता आहे, निर्दिष्ट केलेल्या कालावधीत दिलेल्या अंदाज क्षेत्रामध्ये. "दिलेले क्षेत्र" हे अंदाज क्षेत्र आहे, किंवा broadकास्ट क्षेत्र. म्हणजे पर्जन्यवृष्टीची अधिकृत संभाव्यता या परिसरात कुठेतरी पाऊस पडेल या आत्मविश्वासावर आणि किती टक्के क्षेत्र ओले होईल यावर अवलंबून असते. दुसर्‍या शब्दात, जर हवामान शास्त्रज्ञाला खात्री असेल की अंदाज क्षेत्रात पाऊस पडेल (आत्मविश्वास = 100%), तर PoP पाऊस पडेल त्या भागाचे प्रतिनिधित्व करतो.  

पॅरिस स्ट्रीट; पावसाळी दिवस,गुस्ताव कैलेबोट (1848-1894) शिकागो कला संस्था सार्वजनिक डोमेन

पावसाची शक्यता आत्मविश्वास आणि क्षेत्र या दोन्हींवर अवलंबून असते. मला हे ठाऊक नव्हते. मला शंका आहे की इतर लोकांना ते माहित नाही. सुमारे 75% लोकसंख्येला PoP ची गणना कशी केली जाते किंवा ते कशाचे प्रतिनिधित्व करायचे आहे हे अचूकपणे समजत नाही. तर, आपल्याला फसवले जात आहे की, ही आकलनाची समस्या आहे. याला पर्सिपिटेशन पर्सेप्शन म्हणू या. आम्ही हवामानाचा अंदाज घेणाऱ्याला दोष देतो का? प्रामाणिकपणे, काही आहे गोंधळ हवामान अंदाजकर्त्यांमध्ये देखील. एका मध्ये सर्वेक्षण, सर्वेक्षण केलेल्या 43% हवामानशास्त्रज्ञांनी सांगितले की PoP च्या व्याख्येमध्ये फारच कमी सुसंगतता आहे.

विश्लेषण स्वतः पक्षपाती आहे

पाच प्रभावशाली घटकांपैकी, विश्लेषण स्वतःच सर्वात आश्चर्यकारक असू शकते. वैज्ञानिक संशोधनात ज्याचा परिणाम पुनरावलोकन केलेला पेपर प्रकाशित केला जातो, सामान्यत: एक सिद्धांत गृहित धरला जातो, गृहीतके तपासण्यासाठी पद्धती परिभाषित केल्या जातात, डेटा गोळा केला जातो, त्यानंतर डेटाचे विश्लेषण केले जाते. विश्लेषणाचा प्रकार आणि ते कसे केले जाते, त्याचा निष्कर्षांवर कसा परिणाम होतो, याचे कमी कौतुक केले जाते. आत मधॆ कागद या वर्षाच्या सुरुवातीला (जानेवारी 2022) प्रकाशित, इंटरनॅशनल जर्नल ऑफ कॅन्सरमध्ये, लेखकांनी यादृच्छिक नियंत्रित चाचण्यांचे परिणाम आणि पूर्वलक्षी निरीक्षण अभ्यासाचे मूल्यांकन केले. त्यांच्या निष्कर्षांनी असा निष्कर्ष काढला की,

तुलनात्मक परिणामकारकता संशोधनामध्ये विविध विश्लेषणात्मक निवडी करून, आम्ही उलट परिणाम व्युत्पन्न केले. आमचे परिणाम असे सूचित करतात की काही पूर्वलक्षी निरीक्षणात्मक अभ्यासांमध्ये असे आढळून येते की एखाद्या उपचारामुळे रुग्णांसाठी परिणाम सुधारतात, तर दुसर्‍या समान अभ्यासात असे आढळू शकते की ते केवळ विश्लेषणात्मक निवडींवर आधारित नाही.

पूर्वी, एक वैज्ञानिक जर्नल लेख वाचताना, जर तुम्ही माझ्यासारखे असाल, तर तुम्हाला असे वाटले असेल की परिणाम किंवा निष्कर्ष हे सर्व डेटावर आधारित आहेत. आता, असे दिसून येते की परिणाम, किंवा प्रारंभिक गृहीतकांची पुष्टी होते किंवा खंडन होते हे देखील विश्लेषणाच्या पद्धतीवर अवलंबून असू शकते.

आणखी अभ्यास समान परिणाम आढळले. लेख, अनेक विश्लेषक, एक डेटा संच: विश्लेषणात्मक निवडींमधील फरक परिणामांवर कसा परिणाम करतात हे पारदर्शक बनवणे, विश्लेषण करण्यासाठी त्यांनी 29 वेगवेगळ्या संघांना समान डेटा कसा दिला याचे वर्णन करते. डेटा विश्लेषण हे एक कठोर, सु-परिभाषित प्रक्रिया म्हणून पाहिले जाते ज्यामुळे एकच निष्कर्ष निघतो.  

मेथडॉलॉजिस्टचे प्रात्यक्षिक असूनही, या वस्तुस्थितीकडे दुर्लक्ष करणे सोपे आहे की परिणाम निवडलेल्या विश्लेषणात्मक रणनीतीवर अवलंबून असू शकतात, जे स्वतः सिद्धांत, गृहितके आणि निवडीच्या मुद्द्यांवर अवलंबून असते. अनेक प्रकरणांमध्ये, संशोधन प्रश्नावर आधारित डेटाचे मूल्यांकन करण्यासाठी अनेक वाजवी (आणि अनेक अवास्तव) दृष्टिकोन आहेत.

संशोधकांनी डेटाचे विश्लेषण क्राउड-सोर्स केले आणि निष्कर्षापर्यंत पोहोचले की सर्व संशोधनामध्ये व्यक्तिनिष्ठ निर्णयांचा समावेश होतो - ज्यात कोणत्या प्रकारचे विश्लेषण वापरायचे यासह - जे अभ्यासाच्या अंतिम परिणामांवर परिणाम करू शकतात.

दुसऱ्याची शिफारस संशोधक वरील अभ्यासाचे विश्लेषण करणारे निर्णय घेताना किंवा निष्कर्ष काढताना एकच पेपर वापरताना सावधगिरी बाळगणे आवश्यक आहे.

अॅनालिटिक्स मध्ये बायस संबोधित करणे

हे फक्त एक सावधगिरीची कथा आहे. ज्ञान आपल्याला घोटाळ्यांपासून वाचवू शकते. स्कॅनर आपल्याला फसवण्यासाठी वापरणाऱ्या संभाव्य पद्धतींबद्दल जितकी जास्त जागरूक असेल, तितकीच आपल्याला पकडले जाण्याची शक्यता कमी आहे. त्यामुळे आमच्या विश्लेषणावर परिणाम करणारे संभाव्य पूर्वाग्रह समजून घेणे आणि ओळखणे हे आहे. आम्हाला संभाव्य प्रभावांची जाणीव असल्यास, आम्ही कथा अधिक चांगल्या प्रकारे सादर करण्यात आणि शेवटी चांगले निर्णय घेण्यास सक्षम होऊ.  

BI/AnalyticsUncategorized
2500 वर्षे जुनी पद्धत तुमचे विश्लेषण कसे सुधारू शकते

2500 वर्षे जुनी पद्धत तुमचे विश्लेषण कसे सुधारू शकते

चुकीच्या पद्धतीने सरावलेल्या सॉक्रेटिक पद्धतीमुळे कायद्याच्या शाळा आणि वैद्यकीय शाळांनी ते अनेक वर्षांपासून शिकवले आहे. सॉक्रेटिक पद्धत केवळ डॉक्टर आणि वकीलांसाठी फायदेशीर नाही. संघाचे नेतृत्व करणाऱ्या किंवा कनिष्ठ कर्मचाऱ्यांना मार्गदर्शन करणाऱ्या कोणत्याही व्यक्तीकडे हे तंत्र असावे...

पुढे वाचा

BI/AnalyticsUncategorized
मायक्रोसॉफ्ट एक्सेल हे #1 विश्लेषण साधन का आहे
एक्सेल हे #1 विश्लेषण साधन का आहे?

एक्सेल हे #1 विश्लेषण साधन का आहे?

  हे स्वस्त आणि सोपे आहे. मायक्रोसॉफ्ट एक्सेल स्प्रेडशीट सॉफ्टवेअर कदाचित व्यावसायिक वापरकर्त्याच्या संगणकावर आधीपासूनच स्थापित केलेले आहे. आणि आज अनेक वापरकर्ते हायस्कूल किंवा अगदी पूर्वीपासून मायक्रोसॉफ्ट ऑफिस सॉफ्टवेअरच्या संपर्कात आले आहेत. या गुडघ्याला धक्का देणारा प्रतिसाद...

पुढे वाचा

BI/AnalyticsUncategorized
तुमची अंतर्दृष्टी अनक्लटर करा: ॲनालिटिक्स स्प्रिंग क्लीनिंगसाठी मार्गदर्शक

तुमची अंतर्दृष्टी अनक्लटर करा: ॲनालिटिक्स स्प्रिंग क्लीनिंगसाठी मार्गदर्शक

अनक्लटर युअर इनसाइट्स ॲनालिटिक्स स्प्रिंग क्लीनिंगसाठी मार्गदर्शक नवीन वर्षाची सुरुवात धमाकेदारपणे होते; वर्षअखेरीचे अहवाल तयार केले जातात आणि त्यांची छाननी केली जाते आणि नंतर प्रत्येकजण कामाच्या सुसंगत वेळापत्रकात स्थिरावतो. जसजसे दिवस मोठे होतात आणि झाडे आणि फुले बहरतात, ...

पुढे वाचा

BI/AnalyticsUncategorized
NY शैली विरुद्ध शिकागो शैली पिझ्झा: एक स्वादिष्ट वादविवाद

NY शैली विरुद्ध शिकागो शैली पिझ्झा: एक स्वादिष्ट वादविवाद

आमची इच्छा पूर्ण करताना, काही गोष्टी पिझ्झाच्या गरम स्लाइसच्या आनंदाला टक्कर देऊ शकतात. न्यूयॉर्क-शैली आणि शिकागो-शैलीतील पिझ्झा यांच्यातील वादाने अनेक दशकांपासून उत्कट चर्चांना उधाण आले आहे. प्रत्येक शैलीची स्वतःची विशिष्ट वैशिष्ट्ये आणि एकनिष्ठ चाहते आहेत....

पुढे वाचा

BI/Analyticsकॉग्नोस ticsनालिटिक्स
कॉग्नोस क्वेरी स्टुडिओ
तुमच्या वापरकर्त्यांना त्यांचा क्वेरी स्टुडिओ हवा आहे

तुमच्या वापरकर्त्यांना त्यांचा क्वेरी स्टुडिओ हवा आहे

IBM Cognos Analytics 12 च्या रिलीझसह, क्वेरी स्टुडिओ आणि विश्लेषण स्टुडिओचे दीर्घ-घोषित बहिष्कार शेवटी कॉग्नोस ॲनालिसिस वजा त्या स्टुडिओच्या आवृत्तीसह वितरित केले गेले. यात गुंतलेल्या बहुतेक लोकांसाठी हे आश्चर्यचकित होऊ नये...

पुढे वाचा

BI/AnalyticsUncategorized
टेलर स्विफ्ट इफेक्ट खरा आहे का?

टेलर स्विफ्ट इफेक्ट खरा आहे का?

काही समीक्षकांनी असे सुचवले आहे की ती सुपर बाउल तिकिटांच्या किंमती वाढवत आहे या शनिवार व रविवारचा सुपर बाउल हा टेलिव्हिजन इतिहासातील टॉप 3 सर्वाधिक पाहिल्या गेलेल्या घटनांपैकी एक असण्याची अपेक्षा आहे. कदाचित गेल्या वर्षीच्या रेकॉर्ड-सेटिंग संख्यांपेक्षा जास्त आणि कदाचित 1969 च्या चंद्रापेक्षाही जास्त...

पुढे वाचा