एनालिटिक्स झूट

by अगस्ट 31, 2022BI/Analytics0 टिप्पणी

एनालिटिक्स झूट

विश्लेषण को पूर्वाग्रह

 

मार्क ट्वेनले विवादास्पद रूपमा केही भनेका छन्, "तीन प्रकारका झूटहरू छन्: झूट, झूट र विश्लेषण। " 

विश्लेषकले हामीलाई उपयोगी, कार्ययोग्य अन्तर्दृष्टि दिन्छ भन्ने कुरालाई हामी स्वीकार गर्छौं। हामीले प्रायः के महसुस गर्दैनौं कि कसरी हाम्रो आफ्नै पूर्वाग्रहहरू र अरूको ती जवाफहरूले हामीलाई सबैभन्दा परिष्कृत सफ्टवेयर र प्रणालीहरूद्वारा दिइएका जवाफहरूलाई प्रभाव पार्छ। कहिलेकाहीँ, हामी बेइमानसँग हेरफेर हुन सक्छौं, तर, अधिक सामान्य रूपमा, यो सूक्ष्म र अचेतन पूर्वाग्रहहरू हुन सक्छ जुन हाम्रो विश्लेषणमा रिसाउँछ। पक्षपाती विश्लेषणको पछाडिको प्रेरणा धेरै गुणा हो। कहिलेकाहीँ हामीले विज्ञानबाट अपेक्षा गर्ने निष्पक्ष नतिजाहरू 1) डेटा कसरी प्रस्तुत गरिन्छ भन्ने सूक्ष्म छनौटहरू, 2) असंगत वा गैर-प्रतिनिधि डेटा, 3) कसरी AI प्रणालीहरू प्रशिक्षित हुन्छन्, 4) अज्ञानता, अनुसन्धानकर्ताहरूको अक्षमता वा अन्य प्रयासहरूद्वारा प्रभावित हुन्छन्। कथा सुनाउन, 5) विश्लेषण आफै।    

प्रस्तुति पक्षपाती छ

केही झूटहरू अरूहरू भन्दा पत्ता लगाउन सजिलो छ। जब तपाईलाई थाहा छ के खोज्ने हो तपाईले सजिलैसँग सम्भावित रूपमा पत्ता लगाउन सक्नुहुन्छ भ्रामक ग्राफ र चार्टहरू। 

कमसेकम त्यहाँ छन् भ्रामक रूपमा डाटा प्रदर्शन गर्न पाँच तरिकाहरू: १) सीमित डाटा सेट देखाउनुहोस्, २)। असंबद्ध सहसंबंधहरू देखाउनुहोस्, 1) गलत रूपमा डेटा देखाउनुहोस्, 2) अपरंपरागत रूपमा डेटा देखाउनुहोस्, वा 3)। अति सरलीकृत डाटा देखाउनुहोस्।

सीमित डेटा सेट देखाउनुहोस्

डेटा सीमित गर्दै, वा डेटाको गैर-अनियमित खण्ड चयन गर्ने हातले प्रायः एउटा कथा बताउन सक्छ जुन ठूलो तस्वीरसँग मेल खाँदैन। खराब नमूना, वा चेरी पिकिङ, जब विश्लेषकले ठूलो समूहको प्रतिनिधित्व गर्न गैर-प्रतिनिधि नमूना प्रयोग गर्दछ। 

मार्च 2020 मा, जर्जियाको जनस्वास्थ्य विभाग यो चार्ट आफ्नो दैनिक स्थिति रिपोर्ट को एक भाग को रूप मा प्रकाशित। यसले वास्तवमा जवाफ भन्दा धेरै प्रश्नहरू खडा गर्छ।  

हराइरहेको कुरा मध्ये एउटा प्रसंग हो। उदाहरण को लागी, यो जान्न उपयोगी हुनेछ कि जनसंख्या को प्रतिशत प्रत्येक उमेर समूह को लागी हो। साधारण देखिने पाई चार्टको साथ अर्को मुद्दा असमान उमेर समूह हो। 0-17 मा 18 वर्ष, 18-59 मा 42, 60+ ओपन एन्ड छ, तर लगभग 40 वर्ष छ। निष्कर्ष, यो चार्ट मात्र दिइएको छ, अधिकांश केसहरू 18-59 वर्ष उमेर समूहका छन्। 60+ वर्ष उमेर समूह COVID मामिलाहरूबाट कम गम्भीर रूपमा प्रभावित देखिन्छ। तर यो सम्पूर्ण कथा होइन।

तुलनाको लागि, यो फरक डाटा सेट मा CDC वेब साइट प्रत्येक उमेर दायरामा रहेको अमेरिकी जनसंख्याको प्रतिशतमा अतिरिक्त डेटाको साथ उमेर समूह अनुसार COVID मामिलाहरू चार्ट गर्नुहोस्।  

यो झन राम्रो छ। हामीसँग थप सन्दर्भ छ। हामीले देख्न सक्छौं कि उमेर समूह 18-29, 30-39, 40-49 सबैमा जनसंख्याको उमेर समूहको प्रतिशत भन्दा बढी केसहरू छन्। अझै पनि केही असमान उमेर समूहहरू छन्। किन 16-17 फरक उमेर समूह हो? अझै पनि यो पुरा कथा होइन, तर पंडितहरूले स्तम्भहरू लेखेका छन्, भविष्यवाणी गरेका छन् र यो भन्दा कममा जनादेश दिएका छन्। स्पष्ट रूपमा, COVID सँग, त्यहाँ उमेर बाहेक धेरै चरहरू छन् जसले सकारात्मक केसको रूपमा गणनालाई असर गर्छ: खोपको स्थिति, परीक्षणहरूको उपलब्धता, परीक्षणको संख्या, कमोरबिडिटीहरू, र अन्य धेरै। केसहरूको संख्या, आफैले, अपूर्ण चित्र प्रदान गर्दछ। धेरैजसो विशेषज्ञहरूले मृत्युको संख्या, वा प्रति 100,000 जनसंख्याको मृत्युको प्रतिशत, वा केस-मृत्युहरू पनि हेर्छन् कि कसरी COVID ले प्रत्येक उमेर समूहलाई असर गर्छ।

असंबद्ध सहसंबंध देखाउनुहोस्

जाहिर छ, त्यहाँ एक छ बलियो सम्बन्ध अमेरिकाले विज्ञान, अन्तरिक्ष र प्रविधिमा गरेको खर्च र झुण्डिएर, घाँटी थिचेर र निसास्सिएर आत्महत्या गर्नेहरूको सङ्ख्याको बीचमा। सहसंबंध 99.79% हो, लगभग एक उत्तम मिलान।  

यद्यपि, यी कुनै न कुनै रूपमा सम्बन्धित छन् वा एउटाले अर्कोलाई निम्त्याउँछ भन्ने कुरा कसले गर्छ? त्यहाँ अन्य कम चरम उदाहरणहरू छन्, तर कम जाली छैन। Scripps National Spelling Bee को Winning Word र Venomous Spiders द्वारा मारिएका मानिसहरूको संख्या बीचमा समान बलियो सम्बन्ध छ। संयोग ? तपाईं निर्णय गर्नुहोस्।

यो डेटा चार्ट गर्ने अर्को तरिका जुन कम भ्रामक हुन सक्छ दुबै Y-अक्षहरूमा शून्य समावेश गर्नु हो।

गलत डाटा देखाउनुहोस्

बाट डाटा खराब रूपमा कसरी प्रदर्शन गर्ने, अमेरिकी राज्य जर्जियाले सबैभन्दा धेरै पुष्टि भएका कोभिड-१९ केस भएका शीर्ष ५ काउन्टीहरू प्रस्तुत गरेको छ।

वैध देखिन्छ, हैन? त्यहाँ स्पष्ट रूपमा पुष्टि भएको COVID-19 मामिलाहरूमा गिरावट आएको छ। के तपाइँ एक्स-अक्ष पढ्न सक्नुहुन्छ? X-अक्षले समयलाई जनाउँछ। सामान्यतया, मितिहरू बायाँबाट दायाँ तिर बढ्नेछ। यहाँ, हामी X-अक्षमा थोरै समय यात्रा देख्छौं: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

पर्खनुहोस्? के? X-अक्ष कालक्रम अनुसार क्रमबद्ध गरिएको छैन। त्यसोभए, प्रवृत्ति जति राम्रो देखिन्छ, हामी कुनै निष्कर्ष निकाल्न सक्दैनौं। यदि मितिहरू अर्डर गरिएको छ भने, केसहरूको सङ्ख्याका लागि बारहरूले कुनै पनि प्रकारको प्रवृत्ति भन्दा सटुथ ढाँचा देखाउँदछ।

यहाँ सजिलो समाधान भनेको पात्रोले जस्तै मितिहरू क्रमबद्ध गर्नु हो।

अपरंपरागत रूपमा डेटा देखाउनुहोस्

हामी सबै व्यस्त छौं। हाम्रो मस्तिष्कले हामीलाई हाम्रो संसारमा सुसंगत रहेको अनुमानको आधारमा छिटो निर्णय गर्न सिकाएको छ। उदाहरणका लागि, मैले देखेको प्रत्येक ग्राफले x- र y- अक्षहरू शून्यमा, वा न्यूनतम मानहरू देखाउँछ। यस चार्टलाई छोटकरीमा हेर्दा, तपाईं फ्लोरिडाको प्रभावको बारेमा के निष्कर्ष निकाल्न सक्नुहुन्छ "तपाईको आधारभूत कानून खडा गर्नुहोस्।"? मलाई यो स्वीकार गर्न लाज लाग्छ, तर यो ग्राफले मलाई सुरुमा मूर्ख बनायो। तपाईंको आँखा सजिलैसँग ग्राफिकको बीचमा पाठ र तीरमा खिचिएको छ। यस ग्राफमा तल माथि छ। यो झूट नहुन सक्छ - डाटा सबै ठीक छ। तर, मैले सोच्नु पर्छ कि यो धोका दिनको लागि हो। यदि तपाईंले यसलाई अहिलेसम्म देख्नुभएको छैन भने, y-अक्षमा शून्य शीर्षमा छ। त्यसोभए, डेटा प्रवृति घट्दै जाँदा, यसको मतलब बढी मृत्यु हुन्छ। यो चार्टले बन्दुक प्रयोग गरेर हत्याको संख्या देखाउँछ बढ्यो 2005 पछि, चलिरहेको प्रवृत्ति द्वारा संकेत तल.

अति सरलीकृत डाटा देखाउनुहोस्

विश्लेषकहरूले सिम्पसनको विरोधाभासको फाइदा उठाउँदा डेटाको अति सरलीकरणको एउटा उदाहरण देख्न सकिन्छ। यो एक घटना हो जुन तब हुन्छ जब एकत्रित डेटाले यसलाई उपसमूहहरूमा विभाजित गर्दा भन्दा फरक निष्कर्ष देखाउँछ। उच्च स्तरको समग्र प्रतिशत हेर्दा यो जालमा पर्न सजिलो छ। काममा सिम्पसनको विरोधाभासको स्पष्ट दृष्टान्त मध्ये एक सम्बन्धित छ ब्याटिङको औसत.  

यहाँ हामी देख्छौं कि डेरेक जेटरको 1995 र 1996 सिजनका लागि डेभिड जस्टिसको भन्दा उच्च समग्र ब्याटिंग औसत छ। विरोधाभास तब आउँछ जब हामीले महसुस गर्छौं कि न्यायले जेटरलाई ती दुवै वर्षको ब्याटिंग औसतमा उत्कृष्ट बनायो। यदि तपाईंले राम्ररी हेर्नुभयो भने, यो अर्थपूर्ण हुन्छ जब तपाईंले महसुस गर्नुहुन्छ कि जेटरसँग 4 मा .1996 कम औसतमा 007 गुणा बढी एट-ब्याट (भाजक) थियो। जबकि, न्यायमा मात्रै एट-ब्याटहरूको संख्या लगभग 1996 गुणा थियो। 10 मा 003 उच्च औसत।

प्रस्तुतीकरण सीधा देखिन्छ, तर सिम्पसनको विरोधाभास, जानाजानी वा अनजानमा, गलत निष्कर्षमा पुग्यो। हालै, भ्याक्सिन र COVID मृत्युदरसँग सम्बन्धित समाचार र सोशल मिडियामा सिम्पसनको विरोधाभासका उदाहरणहरू छन्। एक चार्ट 10-59 वर्ष उमेरका मानिसहरूको लागि खोप लगाइएको र खोप नगरिएको बीचको मृत्यु दर तुलना गर्ने रेखा ग्राफ देखाउँछ। चार्टले देखाउँछ कि खोप नलगाइएकोमा लगातार कम मृत्युदर हुन्छ। यहाँ के भइरहेको छ?  

यो समस्या हामीले ब्याटिङको औसतमा देखेको जस्तै छ। यस अवस्थामा भाजक प्रत्येक उमेर समूहमा व्यक्तिहरूको संख्या हो। ग्राफले विभिन्न परिणामहरू भएका समूहहरूलाई संयोजन गर्दछ। यदि हामीले पुरानो उमेर समूह, 50-59, अलग-अलग हेर्छौं भने, हामी खोपको भाडा राम्रो देख्छौं। त्यसैगरी, १०-४९ हेर्दा खोप लगाएको भाडा पनि राम्रो भएको देख्छौं। विरोधाभासपूर्ण रूपमा, संयुक्त सेटलाई हेर्दा, खोप नगरिएकोले खराब नतिजा देखाउँछ। यस तरिकाले, तपाईं डेटा प्रयोग गरेर विपरीत तर्कहरूको लागि मामला बनाउन सक्षम हुनुहुन्छ।

डाटा पक्षपातपूर्ण छ

डाटा सधैं विश्वास गर्न सकिँदैन। वैज्ञानिक समुदायमा पनि, एक तिहाइ भन्दा बढी अनुसन्धानकर्ताहरूले स्वीकार गरे "संशयास्पद अनुसन्धान अभ्यासहरू।"  अर्को अनुसन्धान जासूस जासूस भन्छन्, “डेटामा धेरै जालसाजी हुने सम्भावना छ – तालिका, रेखा ग्राफ, क्रमबद्ध डेटा [– हामीले वास्तवमा पत्ता लगाएको भन्दा]। आफ्नो भान्साको टेबुलमा बस्ने जो कोहीले स्प्रिेडसिटमा केही नम्बरहरू राख्न सक्छन् र एक लाइन ग्राफ बनाउन सक्छन् जुन विश्वस्त देखिन्छ।"

यो पहिलो उदाहरणका कसैले त्यसो गरेको जस्तो देखिन्छ। म यो धोखाधडी हो भनी होइन, तर सर्वेक्षणको रूपमा, यसले सूचित निर्णयमा योगदान गर्ने कुनै पनि डाटा उत्पन्न गर्दैन। यस्तो देखिन्छ कि सर्वेक्षणले उत्तरदाताहरूलाई ग्यास स्टेशन कफी, वा केही अन्य सान्दर्भिक हालको घटनाको बारेमा उनीहरूको राय सोधेको छ। 

  1. शानदार 
  2. ठूलो
  3. धेरै राम्रो 

मैले दोषी पक्षका सन्दर्भहरू हटाउन ट्विटर पोस्ट क्रप गरेको छु, तर यो सर्वेक्षणको अन्तिम नतिजाहरूको वास्तविक सम्पूर्ण चार्ट हो। यस्ता सर्वेक्षणहरू असामान्य छैनन्। स्पष्ट रूपमा, प्रतिक्रियाहरूको परिणामस्वरूप डेटाबाट सिर्जना गरिएको कुनै पनि चार्टले प्रश्नमा रहेको कफी छुटाउनु हुँदैन।  

समस्या यो हो कि यदि तपाइँलाई यो सर्वेक्षण दिइएको थियो र तपाइँको सोच मा मिल्ने प्रतिक्रिया फेला परेन भने, तपाइँ सर्वेक्षण छोड्नुहुनेछ। यो कसरी अविश्वसनीय डाटा सिर्जना गर्न सकिन्छ को एक चरम उदाहरण हुन सक्छ। तथापि, कमजोर सर्वेक्षण डिजाइनले कम प्रतिक्रियाहरू निम्त्याउन सक्छ र प्रतिक्रिया दिनेहरूको एउटा मात्र राय छ, यो केवल डिग्रीको कुरा हो। डाटा पक्षपातपूर्ण छ।

डाटा पूर्वाग्रहको यो दोस्रो उदाहरण फाइलहरूबाट हो "सबैभन्दा खराब COVID 19 भ्रामक ग्राफहरू। " 

फेरि, यो सूक्ष्म छ र पूर्ण रूपमा स्पष्ट छैन। बार ग्राफले फ्लोरिडाको काउन्टीको लागि समयसँगै सकारात्मक COVID-19 केसहरूको प्रतिशतमा एक सहज - लगभग धेरै चिकनी - गिरावट देखाउँदछ। तपाईं सजिलै निष्कर्ष निकाल्न सक्नुहुन्छ कि केसहरू घट्दै छन्। त्यो राम्रो छ, भिजुअलाइजेशनले डाटालाई सही रूपमा प्रतिनिधित्व गर्दछ। समस्या डाटामा छ। त्यसोभए, यो एक अधिक कपटी पूर्वाग्रह हो किनभने तपाइँ यसलाई देख्न सक्नुहुन्न। यो डाटा मा बेक छ। तपाईंले सोध्नु पर्ने प्रश्नहरू, समावेश गर्नुहोस्, कसको परीक्षण भइरहेको छ? अर्को शब्दमा, भाजक के हो, वा जनसंख्या जसको हामी प्रतिशत हेर्दैछौं। धारणा यो हो कि यो सम्पूर्ण जनसंख्या हो, वा कम से कम, एक प्रतिनिधि नमूना हो।

यद्यपि, यस अवधिमा, यस काउन्टीमा, परीक्षणहरू सीमित संख्यामा मानिसहरूलाई मात्र दिइयो। तिनीहरूसँग COVID-जस्तो लक्षणहरू हुनुपर्थ्यो, वा हट स्पटहरूको सूचीमा रहेको देशमा भर्खरै यात्रा गरेका थिए। थप रूपमा परिणामहरू भ्रमित गर्ने तथ्य यो हो कि प्रत्येक सकारात्मक परीक्षण गणना गरियो र प्रत्येक नकारात्मक परीक्षण गणना गरियो। सामान्यतया, जब एक व्यक्तिले सकारात्मक परीक्षण गरे, तिनीहरूले फेरि परीक्षण गर्नेछन् जब भाइरसले आफ्नो पाठ्यक्रम चलाएको थियो र नकारात्मक परीक्षण गर्नेछ। त्यसोभए, एक अर्थमा, प्रत्येक सकारात्मक केसको लागि, त्यहाँ एक नकारात्मक परीक्षण केस हुन्छ जसले यसलाई रद्द गर्दछ। अधिकांश परीक्षणहरू नेगेटिभ छन् र प्रत्येक व्यक्तिको नकारात्मक परीक्षणहरू गणना गरिएको थियो। तपाईंले डेटा कसरी पक्षपाती छ र निर्णय गर्नको लागि विशेष रूपमा उपयोगी छैन भनेर हेर्न सक्नुहुन्छ। 

एआई इनपुट र प्रशिक्षण पक्षपाती छ

त्यहाँ कम्तिमा दुई तरिकाहरू छन् जसमा AI ले पक्षपाती परिणामहरू निम्त्याउन सक्छ: पूर्वाग्रही डेटाबाट सुरु गर्ने, वा वैध डेटा प्रशोधन गर्न पक्षपाती एल्गोरिदमहरू प्रयोग गरेर।  

पक्षपाती इनपुट

हामी मध्ये धेरैले संख्या घटाउन, यसको एल्गोरिदमहरू लागू गर्न र डाटाको भरपर्दो विश्लेषण गर्न AI लाई भरोसा गर्न सकिन्छ भन्ने धारणामा छौं। आर्टिफिसियल इन्टेलिजेन्स जति प्रशिक्षित हुन्छ त्यति मात्र स्मार्ट हुन सक्छ। यदि यो प्रशिक्षित गरिएको डाटा अपूर्ण छ भने, नतिजा वा निष्कर्षहरू पनि विश्वास गर्न सक्षम हुनेछैनन्। सर्वेक्षण पूर्वाग्रहको माथिको मामला जस्तै, त्यहाँ डेटा हुन सक्ने थुप्रै तरिकाहरू छन् पक्षपात मेसिन लर्निङमा:।  

  • नमूना पूर्वाग्रह - प्रशिक्षण डेटासेट सम्पूर्ण जनसंख्याको प्रतिनिधि होइन।
  • बहिष्कार पूर्वाग्रह - कहिलेकाँही बाहिरीहरू जस्तो देखिने कुराहरू वास्तवमा मान्य हुन्छन्, वा, जहाँ हामीले के समावेश गर्ने भन्नेमा रेखा कोर्छौं (जिप कोडहरू, मितिहरू, आदि)।
  • मापन पूर्वाग्रह - कन्भेन्सन भनेको सधैं मेनिस्कसको केन्द्र र तलबाट नाप्नु हो, उदाहरणका लागि, भोल्युमेट्रिक फ्लास्क वा परीक्षण ट्यूबहरूमा तरल पदार्थहरू मापन गर्दा (पारा बाहेक।)
  • पूर्वाग्रह सम्झनुहोस् - जब अनुसन्धान सहभागीहरूको मेमोरीमा निर्भर हुन्छ।
  • पर्यवेक्षक पूर्वाग्रह - वैज्ञानिकहरू, सबै मानवहरू जस्तै, उनीहरूले के हेर्ने आशा गर्छन् भनेर हेर्न बढी झुकाव हुन्छन्।
  • लिंगवादी र जातीय पूर्वाग्रह - लिंग वा जातिलाई बढी वा कम प्रतिनिधित्व गर्न सकिन्छ।  
  • एसोसिएशन पूर्वाग्रह - डाटाले स्टेरियोटाइपहरूलाई बलियो बनाउँछ

AI ले भरपर्दो नतिजाहरू फर्काउनको लागि, यसको प्रशिक्षण डेटा वास्तविक संसारलाई प्रतिनिधित्व गर्न आवश्यक छ। हामीले अघिल्लो ब्लग लेखमा छलफल गरिसकेका छौं, डेटाको तयारी महत्वपूर्ण छ र कुनै अन्य डेटा परियोजना जस्तै। अविश्वसनीय डेटाले मेसिन लर्निङ प्रणालीहरूलाई गलत पाठ सिकाउन सक्छ र गलत निष्कर्षमा परिणत हुनेछ। उनले भने, "सबै डाटा पक्षपाती छन्। यो पागलपन होइन। यो तथ्य हो।" - डा सञ्जीव एम. नारायण, स्ट्यानफोर्ड विश्वविद्यालय स्कूल अफ मेडिसिन।

प्रशिक्षणको लागि पक्षपाती डेटा प्रयोग गर्दा धेरै उल्लेखनीय एआई विफलताहरू निम्त्याएको छ। (उदाहरणहरू यहाँयहाँ, अनुसन्धान यहाँ..)

पक्षपाती एल्गोरिदम

एल्गोरिदम नियमहरूको सेट हो जसले इनपुट स्वीकार गर्दछ र व्यापार समस्याको जवाफ दिन आउटपुट सिर्जना गर्दछ। तिनीहरू प्रायः राम्ररी परिभाषित निर्णय रूखहरू हुन्। एल्गोरिदमहरू कालो बक्सहरू जस्तै महसुस गर्छन्। कसैलाई पनि यकिन छैन कि तिनीहरूले कसरी काम गर्छन्, अक्सर, पनि कम्पनीहरूले तिनीहरूलाई प्रयोग गर्छन्। ओह, र तिनीहरू प्राय: स्वामित्वमा छन्। तिनीहरूको रहस्यमय र जटिल प्रकृति पक्षपाती एल्गोरिदमहरू यति कपटी हुनुको एउटा कारण हो। । 

चिकित्सा, मानव संसाधन वा वित्तमा एआई एल्गोरिदमहरू विचार गर्नुहोस् जसले दौडलाई ध्यानमा राख्छ। यदि दौड एक कारक हो भने, एल्गोरिदम जातीय रूपमा अन्धा हुन सक्दैन। यो सैद्धान्तिक होइन। यस्ता समस्याहरू वास्तविक संसारमा AI in प्रयोग गरेर पत्ता लगाइएको छ हाइरिङ, सवारी साझेदारी, applicationण आवेदनs, and मृगौला प्रत्यारोपण

तल्लो रेखा यो हो कि यदि तपाईंको डाटा वा एल्गोरिदमहरू खराब छन्, बेकार भन्दा खराब छन्, तिनीहरू खतरनाक हुन सक्छन्। त्यहाँ यस्तो चीज छ "एल्गोरिदमिक अडिट।" लक्ष्य भनेको संस्थाहरूलाई एल्गोरिदमसँग सम्बन्धित सम्भावित जोखिमहरू पहिचान गर्न मद्दत गर्नु हो किनभने यो निष्पक्षता, पूर्वाग्रह र भेदभावसँग सम्बन्धित छ। अन्यत्र, फेसबुक AI मा पूर्वाग्रह विरुद्ध लड्न AI प्रयोग गर्दैछ।

जनता पक्षपाती छन्

हामीसँग समीकरणको दुवै पक्षमा मानिसहरू छन्। मानिसहरूले विश्लेषणको तयारी गरिरहेका छन् र मानिसहरूले जानकारी प्राप्त गरिरहेका छन्। त्यहाँ शोधकर्ताहरू छन् र त्यहाँ पाठकहरू छन्। कुनै पनि सञ्चारमा, प्रसारण वा रिसेप्शनमा समस्या हुन सक्छ।

उदाहरणका लागि, मौसम लिनुहोस्। "वर्षाको सम्भावना" भनेको के हो? पहिले, मौसमविद्हरूले वर्षाको सम्भावना छ भन्नुको अर्थ के हो? अमेरिकी सरकारका अनुसार राष्ट्रिय मौसम सेवा, वर्षाको सम्भावना, वा जसलाई उनीहरूले वर्षाको सम्भावना (PoP) भनिन्छ, मौसम पूर्वानुमानमा सबैभन्दा कम बुझ्ने तत्वहरू मध्ये एक हो। यसको एक मानक परिभाषा छ: "वर्षाको सम्भाव्यता भनेको ०.०१" इन्च [sic] को [sic] अधिक वर्षाको एक सांख्यिकीय सम्भाव्यता हो जुन निर्दिष्ट समय अवधिमा दिइएको पूर्वानुमान क्षेत्रमा दिइएको क्षेत्रमा। "दिईएको क्षेत्र" भनेको पूर्वानुमान क्षेत्र हो, वा बीroadकास्ट क्षेत्र। यसको मतलब यो हो कि वर्षाको आधिकारिक सम्भाव्यता विश्वासमा निर्भर गर्दछ कि यो क्षेत्रमा कतै वर्षा हुनेछ र क्षेत्रको प्रतिशत भिजेको छ। अर्को शब्दमा, यदि मौसमविद्ले पूर्वानुमान क्षेत्रमा वर्षा हुने कुरामा विश्वस्त छ (विश्वास = १००%), तब PoP ले वर्षा हुने क्षेत्रको भागलाई प्रतिनिधित्व गर्दछ।  

पेरिस स्ट्रीट; वर्षाको दिन,गुस्ताभ काइलबोट (१८४८-१८९४) शिकागो कला संस्थान पब्लिक डोमेन

वर्षाको सम्भावना दुवै आत्मविश्वास र क्षेत्र मा निर्भर गर्दछ। मलाई त्यो थाहा थिएन। मलाई शंका छ कि अरू मानिसहरूलाई पनि थाहा छैन। जनसंख्याको लगभग 75% ले पीओपी कसरी गणना गरिन्छ, वा यसको प्रतिनिधित्व गर्नु भनेको के हो भनेर सही रूपमा बुझ्दैनन्। त्यसोभए, के हामी मूर्ख बनिरहेका छौं, वा, यो धारणाको समस्या हो। यसलाई वर्षा धारणा भनौं। के हामी मौसम पूर्वानुमानकर्तालाई दोष दिन्छौं? निष्पक्ष हुन, त्यहाँ केहि छ भ्रम मौसम पूर्वानुमानकर्ताहरू बीच पनि। एक मा सर्वेक्षणसर्वेक्षणमा ४३% मौसमविद्ले पीओपीको परिभाषामा एकदमै कम एकरूपता रहेको बताएका छन् ।

विश्लेषण आफैमा पक्षपाती छ

पाँच प्रभावकारी कारकहरू मध्ये, विश्लेषण आफैंमा सबैभन्दा आश्चर्यजनक हुन सक्छ। वैज्ञानिक अनुसन्धानमा जुन समीक्षा गरिएको पेपर प्रकाशित हुन्छ, सामान्यतया एक सिद्धान्त परिकल्पना गरिन्छ, परिकल्पना परीक्षण गर्न विधिहरू परिभाषित गरिन्छ, डाटा सङ्कलन गरिन्छ, त्यसपछि डाटा विश्लेषण गरिन्छ। विश्लेषणको प्रकार र यो कसरी गरिन्छ यसले निष्कर्षमा कसरी प्रभाव पार्छ भन्ने कुरालाई कम मूल्याङ्कन गरिएको छ। मा कागज यस वर्षको सुरुमा (जनवरी 2022) मा प्रकाशित, इन्टरनेशनल जर्नल अफ क्यान्सरमा, लेखकहरूले यादृच्छिक नियन्त्रित परीक्षणहरू र पूर्वव्यापी अवलोकन अध्ययनहरूको नतिजाहरू मूल्याङ्कन गरे। उनीहरुको नतिजाले यस्तो निष्कर्ष निकाल्यो कि,

तुलनात्मक प्रभावकारिता अनुसन्धानमा विभिन्न विश्लेषणात्मक विकल्पहरूद्वारा, हामीले विपरीत परिणामहरू उत्पन्न गर्यौं। हाम्रा नतिजाहरूले सुझाव दिन्छ कि केही पूर्ववर्ती अवलोकन अध्ययनहरूले बिरामीहरूको लागि उपचारको नतिजा सुधार्न सक्छ, जबकि अर्को समान अध्ययनले यो फेला पार्न सक्छ, केवल विश्लेषणात्मक छनौटहरूमा आधारित।

विगतमा, एक वैज्ञानिक जर्नल लेख पढ्दा, यदि तपाईं म जस्तै हुनुहुन्छ भने, तपाईंले नतिजा वा निष्कर्षहरू सबै डाटाको बारेमा सोच्नु भएको हुन सक्छ। अब, यस्तो देखिन्छ कि परिणामहरू, वा प्रारम्भिक परिकल्पना पुष्टि वा खण्डन पनि विश्लेषणको विधिमा निर्भर हुन सक्छ।

अर्को अध्ययन समान परिणामहरू फेला पारे। लेख, धेरै विश्लेषकहरू, एक डेटा सेट: पारदर्शी बनाउने कसरी विश्लेषणात्मक विकल्पहरूमा भिन्नताहरूले परिणामहरूलाई असर गर्छ, तिनीहरूले कसरी विश्लेषण गर्न 29 विभिन्न टोलीहरूलाई समान डेटा सेट दिए भनेर वर्णन गर्दछ। डाटा विश्लेषणलाई प्रायः कडा, राम्रो-परिभाषित प्रक्रियाको रूपमा हेरिन्छ जसले एकल निष्कर्षमा पुग्छ।  

पद्धतिविद्हरूको प्रदर्शनको बावजुद, यो तथ्यलाई बेवास्ता गर्न सजिलो छ कि परिणामहरू छनौट गरिएको विश्लेषणात्मक रणनीतिमा निर्भर हुन सक्छ, जुन आफैं सिद्धान्त, मान्यताहरू, र छनौट बिन्दुहरूमा आधारित छ। धेरै अवस्थामा, त्यहाँ धेरै तर्कसंगत (र धेरै अव्यावहारिक) डेटा मूल्याङ्कन गर्ने दृष्टिकोणहरू छन् जुन अनुसन्धान प्रश्नमा आधारित हुन्छ।

अन्वेषकहरूले डेटाको विश्लेषणलाई भीड-स्रोत गरे र निष्कर्षमा पुगे कि सबै अनुसन्धानले व्यक्तिपरक निर्णयहरू समावेश गर्दछ - कुन प्रकारको विश्लेषण प्रयोग गर्ने सहित - जसले अध्ययनको अन्तिम नतिजालाई असर गर्न सक्छ।

अर्काको सिफारिस शोधकर्ता माथिको अध्ययनको विश्लेषण गर्ने व्यक्तिले निर्णय लिन वा निष्कर्ष निकाल्दा एउटै कागजको प्रयोग गर्दा होसियार हुनुपर्छ।

एनालिटिक्समा पूर्वाग्रहलाई सम्बोधन गर्दै

यो केवल एक सावधानी कथा हुन को लागी हो। ज्ञानले हामीलाई घोटालाहरूबाट जोगाउन सक्छ। स्क्यानरले हामीलाई मूर्ख बनाउन प्रयोग गर्न सक्ने सम्भावित विधिहरूबारे जति धेरै सचेत हुन्छ, हामीलाई पकेटको गलत दिशा, वा पोन्जी प्लेको सहज कुराकानीमा लिइने सम्भावना कम हुन्छ। त्यसोभए यो हाम्रो विश्लेषणलाई असर गर्ने सम्भावित पूर्वाग्रहहरूलाई बुझेर र पहिचान गर्ने हो। यदि हामी सम्भावित प्रभावहरू बारे सचेत छौं भने, हामी कथालाई राम्रोसँग प्रस्तुत गर्न र अन्ततः राम्रो निर्णयहरू गर्न सक्षम हुन सक्छौं।  

BI/Analytics.
CI / CD
CI/CD को साथ तपाईंको एनालिटिक्स कार्यान्वयन Turbocharge

CI/CD को साथ तपाईंको एनालिटिक्स कार्यान्वयन Turbocharge

आजको द्रुत गतिमा digital ल्यान्डस्केप, व्यवसायहरू सूचित निर्णयहरू लिन र प्रतिस्पर्धात्मक किनारा प्राप्त गर्न डाटा-संचालित अन्तर्दृष्टिहरूमा भर पर्छन्। विश्लेषणात्मक समाधानहरू प्रभावकारी र प्रभावकारी रूपमा लागू गर्नु डाटाबाट बहुमूल्य जानकारी प्राप्त गर्न महत्त्वपूर्ण छ। एउटा बाटो...

थप पढ्नुहोस्

BI/Analytics
बौद्धिक सम्पत्ति ब्लग
के यो मेरो हो? AI को युगमा खुला स्रोत विकास र आईपी

के यो मेरो हो? AI को युगमा खुला स्रोत विकास र आईपी

के यो मेरो हो? AI को युगमा खुला स्रोत विकास र आईपी कथा परिचित छ। एक प्रमुख कर्मचारीले तपाइँको कम्पनी छोड्छ र त्यहाँ एक चिन्ता छ कि कर्मचारीले व्यापार गोप्य र अन्य गोप्य जानकारी ढोका बाहिर आफ्नो बाटोमा लिनेछ। सायद सुन्नुहुन्छ...

थप पढ्नुहोस्

BI/Analytics
सिलिकन भ्याली बैंक
सिलिकन भ्याली बैंकको जुवा केपीआईको नेतृत्वमा यसको पतन भयो

सिलिकन भ्याली बैंकको जुवा केपीआईको नेतृत्वमा यसको पतन भयो

केपीआईसँग सिलिकन भ्याली बैंकको जुवाले यसको पतनको नेतृत्व गर्‍यो परिवर्तन व्यवस्थापन र उचित निरीक्षणको महत्त्व सबैले हालैको सिलिकन भ्याली बैंक असफलताको परिणामको विश्लेषण गरिरहेका छन्। चेतावनी संकेतहरू नदेखेकोमा फेडहरू आफैलाई लात मार्दै छन् ...

थप पढ्नुहोस्

BI/Analytics
AI: Pandora's Box or Innovation

AI: Pandora's Box or Innovation

AI: Pandora's Box or Innovation AI ले उठेका नयाँ प्रश्नहरू समाधान गर्ने र नवप्रवर्तनका फाइदाहरू बीच सन्तुलन खोज्ने AI र बौद्धिक सम्पत्तिसँग सम्बन्धित दुईवटा ठूला मुद्दाहरू छन्। एउटा यसको सामग्रीको प्रयोग हो। प्रयोगकर्ता एक को रूप मा सामग्री प्रविष्ट गर्दछ ...

थप पढ्नुहोस्

BI/Analytics
जीवनको गेमिफिकेशन

जीवनको गेमिफिकेशन

The Gamification of Life यसले डाटा साक्षरता सुधार गर्न र संस्थाहरूलाई राम्रो निर्णय लिन मद्दत गर्न सक्छ? म एक शावक स्काउट थिएँ। फ्रेड हडसनकी आमा डेन आमा थिइन्। हामी फ्रेडको तहखानेमा भुइँमा क्रस खुट्टाले बसेर हाम्रो अर्को साहसिक कार्यको बारेमा सिक्नेछौं। साहसिक कार्य...

थप पढ्नुहोस्

BI/Analytics
NCAA बास्केटबल डेटा पूर्वाग्रह
स्विश वा मिस: NCAA बास्केटबल भविष्यवाणीहरूमा डेटा पूर्वाग्रहको भूमिका

स्विश वा मिस: NCAA बास्केटबल भविष्यवाणीहरूमा डेटा पूर्वाग्रहको भूमिका

स्विस वा मिस: NCAA बास्केटबल भविष्यवाणीहरूमा डेटा पूर्वाग्रहको भूमिका २०२३ कलेज बास्केटबल सिजनले दुई अप्रत्याशित च्याम्पियनहरूको ताज बनाएको छ, LSU महिला र UConn पुरुष टोलीहरूले क्रमशः डलास र ह्युस्टनमा ट्रफीहरू उचालेका छन्। म अप्रत्याशित भन्छु किनकि,...

थप पढ्नुहोस्