Analytics பொய்

பகுப்பாய்வின் சார்பு

 

மார்க் ட்வைன் விவாதத்திற்குரிய வகையில், "பொய்களில் மூன்று வகைகள் உள்ளன: பொய்கள், மோசமான பொய்கள் மற்றும் பகுப்பாய்வு. " 

பகுப்பாய்வு நமக்கு பயனுள்ள, செயல்படக்கூடிய நுண்ணறிவுகளை அளிக்கிறது என்பதை நாங்கள் சாதாரணமாக எடுத்துக்கொள்கிறோம். அதிநவீன மென்பொருள் மற்றும் அமைப்புகளால் கூட நாம் அளிக்கும் பதில்களில் நம்முடைய சொந்த சார்புகளும் மற்றவர்களின் சார்புகளும் எவ்வாறு பாதிக்கப்படுகின்றன என்பதை நாம் அடிக்கடி உணரவில்லை. சில சமயங்களில், நாம் நேர்மையற்ற முறையில் கையாளப்படலாம், ஆனால், பொதுவாக, இது நுட்பமான மற்றும் சுயநினைவற்ற சார்புகளாக இருக்கலாம், அவை நமது பகுப்பாய்வுகளில் ஊடுருவுகின்றன. பாரபட்சமான பகுப்பாய்வுகளுக்குப் பின்னால் உள்ள உந்துதல் பல மடங்கு. சில நேரங்களில் அறிவியலில் இருந்து நாம் எதிர்பார்க்கும் பாரபட்சமற்ற முடிவுகள் 1) தரவு எவ்வாறு வழங்கப்படுகின்றன என்பதில் நுட்பமான தேர்வுகள், 2) சீரற்ற அல்லது பிரதிநிதித்துவமற்ற தரவு, 3) AI அமைப்புகள் எவ்வாறு பயிற்சியளிக்கப்படுகின்றன, 4) ஆராய்ச்சியாளர்கள் அல்லது முயற்சிக்கும் மற்றவர்களின் அறியாமை, திறமையின்மை ஆகியவற்றால் பாதிக்கப்படுகிறது. கதை சொல்ல, 5) பகுப்பாய்வு தன்னை.    

விளக்கக்காட்சி ஒரு சார்புடையது

சில பொய்களை மற்றவர்களை விட எளிதாக கண்டுபிடிக்க முடியும். எதைத் தேடுவது என்று உங்களுக்குத் தெரிந்தால், சாத்தியமானவற்றை நீங்கள் எளிதாகக் கண்டறியலாம் தவறான வரைபடங்கள் மற்றும் விளக்கப்படங்கள். 

குறைந்தது உள்ளன தரவை தவறாகக் காட்ட ஐந்து வழிகள்: 1) வரையறுக்கப்பட்ட தரவு தொகுப்பைக் காட்டு, 2). தொடர்பில்லாத தொடர்புகளைக் காட்டு, 3) தரவைத் தவறாகக் காட்டு, 4) வழக்கத்திற்கு மாறான தரவைக் காட்டு அல்லது 5). மிக எளிமைப்படுத்தப்பட்ட தரவைக் காட்டு.

வரையறுக்கப்பட்ட தரவுத் தொகுப்பைக் காட்டு

தரவை வரம்பிடுவது அல்லது தரவின் சீரற்ற பிரிவைத் தேர்ந்தெடுப்பது பெரிய படத்துடன் ஒத்துப்போகாத கதையை அடிக்கடி கூறலாம். மோசமான மாதிரி அல்லது செர்ரி எடுப்பது, ஆய்வாளர் ஒரு பெரிய குழுவைப் பிரதிநிதித்துவப்படுத்துவதற்கு பிரதிநிதி அல்லாத மாதிரியைப் பயன்படுத்துவதாகும். 

மார்ச் மாதம், ஜார்ஜியாவின் பொது சுகாதாரத் துறை அதன் தினசரி நிலை அறிக்கையின் ஒரு பகுதியாக இந்த விளக்கப்படத்தை வெளியிட்டது. இது உண்மையில் பதில்களை விட அதிகமான கேள்விகளை எழுப்புகிறது.  

காணாமல் போன விஷயங்களில் ஒன்று சூழல். உதாரணமாக, ஒவ்வொரு வயதினருக்கும் மக்கள் தொகையின் சதவீதம் என்ன என்பதை அறிந்து கொள்வது உதவியாக இருக்கும். எளிமையான தோற்றமுள்ள பை விளக்கப்படத்தில் உள்ள மற்றொரு சிக்கல் சீரற்ற வயதுக் குழுக்கள். 0-17 க்கு 18 ஆண்டுகள், 18-59 க்கு 42, 60+ ஓபன் எண்ட், ஆனால் சுமார் 40 ஆண்டுகள். இந்த விளக்கப்படம் மட்டும் கொடுக்கப்பட்ட முடிவு என்னவென்றால், பெரும்பாலான வழக்குகள் 18-59 வயதுக்குட்பட்டவர்கள். 60 வயதுக்கு மேற்பட்டவர்கள் கோவிட் பாதிப்புகளால் கடுமையாகப் பாதிக்கப்படுவதில்லை. ஆனால் இது முழு கதையல்ல.

ஒப்பிடுகையில், இந்த வேறுபட்ட தரவு அமைக்கப்பட்டுள்ளது CDC இணையதளம் ஒவ்வொரு வயது வரம்பிலும் உள்ள அமெரிக்க மக்கள்தொகையின் சதவீதத்தின் கூடுதல் தரவுகளுடன் வயதுக் குழுவின்படி COVID வழக்குகளை அட்டவணைப்படுத்துகிறது.  

இது சிறந்தது. எங்களிடம் அதிக சூழல் உள்ளது. 18-29, 30-39, 40-49 வயதிற்குட்பட்டவர்கள் அனைவரும் மக்கள்தொகையில் உள்ள வயதினரின் சதவீதத்தை விட அதிக சதவீத வழக்குகளைக் கொண்டிருப்பதை நாம் காணலாம். இன்னும் சில சமமற்ற வயதுக் குழுக்கள் உள்ளன. ஏன் 16-17 ஒரு தனி வயது குழு? இன்னும் இது முழு கதையல்ல, ஆனால் பண்டிதர்கள் பத்திகள் எழுதி, கணிப்புகள் மற்றும் கட்டளைகளை இதை விட குறைவாகவே எழுதியுள்ளனர். வெளிப்படையாக, COVID உடன், வயதுக்கு கூடுதலாக பல மாறிகள் உள்ளன, அவை நேர்மறையான வழக்குகளாகக் கணக்கிடப்படுகின்றன: தடுப்பூசி நிலை, சோதனைகளின் கிடைக்கும் தன்மை, எத்தனை முறை பரிசோதிக்கப்பட்டது, நோய்த்தொற்றுகள் மற்றும் பல. வழக்குகளின் எண்ணிக்கை, ஒரு முழுமையற்ற படத்தை வழங்குகிறது. ஒவ்வொரு வயதினரையும் COVID எவ்வாறு பாதிக்கிறது என்பதைப் பார்க்க, பெரும்பாலான நிபுணர்கள் இறப்புகளின் எண்ணிக்கை அல்லது 100,000 மக்கள்தொகைக்கு இறப்பு சதவீதம் அல்லது இறப்பு-இறப்பு ஆகியவற்றைப் பார்க்கிறார்கள்.

தொடர்பில்லாத தொடர்புகளைக் காட்டு

வெளிப்படையாக, ஒரு உள்ளது வலுவான தொடர்பு அறிவியல், விண்வெளி, தொழில்நுட்பம் ஆகியவற்றில் அமெரிக்கா செலவழிக்கும் மற்றும் தூக்கில் தொங்குதல், கழுத்தை நெரித்தல் மற்றும் மூச்சுத் திணறல் ஆகியவற்றின் மூலம் தற்கொலை செய்துகொள்பவர்களின் எண்ணிக்கைக்கு இடையே. தொடர்பு 99.79%, கிட்டத்தட்ட சரியான பொருத்தம்.  

இருப்பினும், இவை எப்படியாவது தொடர்புடையவை, அல்லது ஒன்று மற்றொன்றை ஏற்படுத்துகிறது என்று யார் வழக்கை வைப்பார்கள்? குறைவான தீவிர எடுத்துக்காட்டுகள் உள்ளன, ஆனால் குறைவான போலியானவை இல்லை. வின்னிங் வேர்ட் ஆஃப் ஸ்க்ரிப்ஸ் நேஷனல் ஸ்பெல்லிங் பீ மற்றும் வெனமஸ் ஸ்பைடர்களால் கொல்லப்பட்டவர்களின் எண்ணிக்கையில் உள்ள கடிதங்களுக்கு இடையே இதே போன்ற வலுவான தொடர்பு உள்ளது. தற்செயலா? நீங்கள் முடிவு செய்யுங்கள்.

Y-அச்சுகள் இரண்டிலும் பூஜ்ஜியத்தைச் சேர்ப்பது குறைவான தவறாக வழிநடத்தக்கூடிய இந்தத் தரவை பட்டியலிடுவதற்கான மற்றொரு வழி.

தரவை தவறாகக் காட்டு

இருந்து தரவை மோசமாகக் காண்பிப்பது எப்படி, அமெரிக்காவின் ஜார்ஜியா மாநிலம், அதிக எண்ணிக்கையிலான உறுதிப்படுத்தப்பட்ட கோவிட்-5 வழக்குகளைக் கொண்ட முதல் 19 மாவட்டங்களை வழங்கியது.

முறைப்படி தெரிகிறது, இல்லையா? உறுதிப்படுத்தப்பட்ட COVID-19 வழக்குகளின் கீழ்நோக்கிய போக்கு தெளிவாக உள்ளது. நீங்கள் X- அச்சைப் படிக்க முடியுமா? X- அச்சு நேரத்தைக் குறிக்கிறது. பொதுவாக, தேதிகள் இடமிருந்து வலமாக அதிகரிக்கும். இங்கே, X- அச்சில் சிறிது நேரப் பயணத்தைக் காண்கிறோம்: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

காத்திரு? என்ன? X-அச்சு காலவரிசைப்படி வரிசைப்படுத்தப்படவில்லை. எனவே, போக்கு எவ்வளவு அழகாக இருந்தாலும், நாம் எந்த முடிவுகளையும் எடுக்க முடியாது. தேதிகள் ஆர்டர் செய்யப்பட்டால், வழக்குகளின் எண்ணிக்கைக்கான பார்கள் எந்த வகையான போக்கையும் விட ஒரு மரக்கட்டை வடிவத்தைக் காட்டுகின்றன.

காலெண்டர் செய்யும் விதத்தில் தேதிகளை வரிசைப்படுத்துவதே இங்கு எளிதான தீர்வாகும்.

வழக்கத்திற்கு மாறான தரவைக் காட்டு

நாங்கள் அனைவரும் பிஸியாக இருக்கிறோம். நமது உலகில் சீரான அனுமானங்களின் அடிப்படையில் விரைவான தீர்ப்புகளை வழங்க நமது மூளை நமக்குக் கற்றுக் கொடுத்துள்ளது. எடுத்துக்காட்டாக, நான் பார்த்த ஒவ்வொரு வரைபடமும் x- மற்றும் y- அச்சுகள் பூஜ்ஜியத்தில் அல்லது குறைந்த மதிப்புகளில் சந்திப்பதைக் காட்டுகிறது. இந்த விளக்கப்படத்தை சுருக்கமாகப் பார்த்தால், புளோரிடாவின் விளைவைப் பற்றி நீங்கள் என்ன முடிவுகளை எடுக்க முடியும் "உங்கள் அடிப்படை சட்டத்தை நிலைநிறுத்துங்கள்.”? நான் அதை ஒப்புக்கொள்ள வெட்கப்படுகிறேன், ஆனால் இந்த வரைபடம் முதலில் என்னை முட்டாளாக்கியது. கிராஃபிக்கின் நடுவில் உள்ள உரை மற்றும் அம்புக்குறிக்கு உங்கள் கண் வசதியாக இழுக்கப்படுகிறது. இந்த வரைபடத்தில் கீழே மேலே உள்ளது. இது பொய்யாக இருக்காது - தரவு அனைத்தும் சரியாக உள்ளது. ஆனால், ஏமாற்றுவதற்காகத்தான் என்று நினைக்க வேண்டும். நீங்கள் இன்னும் பார்க்கவில்லை என்றால், y அச்சில் பூஜ்ஜியம் மேலே உள்ளது. எனவே, தரவு குறைந்து வருவதால், அதிக இறப்புகள் என்று அர்த்தம். இந்த விளக்கப்படம் துப்பாக்கிகளைப் பயன்படுத்தி கொலைகளின் எண்ணிக்கையைக் காட்டுகிறது அதிகரித்த 2005 க்குப் பிறகு, போகிற போக்கால் சுட்டிக்காட்டப்படுகிறது கீழே.

மிக எளிமைப்படுத்தப்பட்ட தரவைக் காட்டு

சிம்ப்சனின் முரண்பாட்டை ஆய்வாளர்கள் பயன்படுத்திக் கொள்ளும்போது, ​​தரவை மிக எளிதாக்குவதற்கான ஒரு உதாரணத்தைக் காணலாம். திரட்டப்பட்ட தரவு, துணைக்குழுக்களாகப் பிரிக்கப்பட்டதை விட வேறுபட்ட முடிவை வெளிப்படுத்தும் போது ஏற்படும் நிகழ்வு இதுவாகும். உயர் மட்ட ஒருங்கிணைந்த சதவீதங்களைப் பார்க்கும்போது இந்தப் பொறியில் விழுவது எளிது. வேலையில் சிம்ப்சனின் முரண்பாட்டின் தெளிவான எடுத்துக்காட்டுகளில் ஒன்று தொடர்புடையது பேட்டிங் சராசரிகள்.  

1995 மற்றும் 1996 சீசன்களில் டேவிட் ஜஸ்டிஸை விட டெரெக் ஜெட்டரின் ஒட்டுமொத்த பேட்டிங் சராசரி அதிகமாக இருப்பதை இங்கு காண்கிறோம். அந்த இரண்டு வருடங்களிலும் பேட்டிங் சராசரியில் ஜஸ்டிஸ் சிறந்து விளங்கினார் என்பதை நாம் உணரும்போது முரண்பாடு வருகிறது. நீங்கள் கவனமாகப் பார்த்தால், 4 இல் .1996 குறைந்த சராசரியில் 007 இல் ஜெட்டருக்கு சுமார் 1996 மடங்கு அதிக அட்-பேட்கள் (வகுத்தல்) இருந்தது என்பதை நீங்கள் உணரும்போது அது புரியும். 10 இல் 003 அதிக சராசரி.

விளக்கக்காட்சி நேரடியாகத் தோன்றுகிறது, ஆனால் சிம்ப்சனின் முரண்பாடு, தெரிந்தோ அல்லது அறியாமலோ, தவறான முடிவுகளுக்கு வழிவகுத்தது. சமீபத்தில், தடுப்பூசிகள் மற்றும் கோவிட் இறப்பு தொடர்பான செய்திகளிலும் சமூக ஊடகங்களிலும் சிம்ப்சன் முரண்பாட்டின் எடுத்துக்காட்டுகள் உள்ளன. ஒன்று விளக்கப்படம் 10-59 வயதுடையவர்களுக்கான தடுப்பூசி மற்றும் தடுப்பூசி போடப்படாத இறப்பு விகிதங்களை ஒப்பிடும் வரி வரைபடத்தைக் காட்டுகிறது. தடுப்பூசி போடப்படாதவர்கள் தொடர்ந்து குறைந்த இறப்பு விகிதத்தைக் கொண்டிருப்பதை விளக்கப்படம் நிரூபிக்கிறது. இங்கே என்ன நடந்து கொண்டிருக்கின்றது?  

பேட்டிங் சராசரிகளுடன் நாம் பார்க்கும் பிரச்சினையைப் போன்றே பிரச்சினை உள்ளது. இந்த வழக்கில் வகுத்தல் என்பது ஒவ்வொரு வயதினருக்கும் உள்ள தனிநபர்களின் எண்ணிக்கையாகும். வரைபடம் வெவ்வேறு விளைவுகளைக் கொண்ட குழுக்களை ஒருங்கிணைக்கிறது. 50-59 வயதிற்குட்பட்டவர்களை தனித்தனியாகப் பார்த்தால், தடுப்பூசி போடப்பட்டவர்கள் சிறப்பாக இருப்பதைக் காணலாம். அதேபோல், 10-49ஐப் பார்த்தால், தடுப்பூசி போடப்பட்ட கட்டணம் சிறப்பாக இருப்பதையும் காண்கிறோம். முரண்பாடாக, ஒருங்கிணைந்த தொகுப்பைப் பார்க்கும்போது, ​​தடுப்பூசி போடப்படாதது மோசமான விளைவைக் கொண்டிருப்பதாகத் தோன்றுகிறது. இந்த வழியில், தரவைப் பயன்படுத்தி எதிர் வாதங்களுக்கு நீங்கள் ஒரு வழக்கை உருவாக்க முடியும்.

தரவு பாரபட்சமானது

தரவை எப்போதும் நம்ப முடியாது. விஞ்ஞான சமூகத்தில் கூட, கணக்கெடுக்கப்பட்ட மூன்றில் ஒரு பங்கு ஆராய்ச்சியாளர்கள் ஒப்புக்கொண்டனர் "கேள்விக்குரிய ஆராய்ச்சி நடைமுறைகள்."  மற்றொரு ஆராய்ச்சி மோசடி துப்பறியும் நபர் கூறுகிறது, "தரவு - அட்டவணைகள், வரி வரைபடங்கள், வரிசைப்படுத்துதல் தரவு [- நாம் உண்மையில் கண்டுபிடித்ததை விட] ஆகியவற்றில் அதிக மோசடி உள்ளது. தங்கள் சமையலறை மேஜையில் அமர்ந்திருக்கும் எவரும் ஒரு விரிதாளில் சில எண்களை வைத்து ஒரு வரி வரைபடத்தை உருவாக்கலாம்.

இது முதல் உதாரணமாக யாரோ செய்தது போல் தெரிகிறது. இது மோசடி என்று நான் கூறவில்லை, ஆனால் ஒரு கணக்கெடுப்பாக, இது தகவலறிந்த முடிவிற்கு பங்களிக்கும் எந்த தரவையும் உருவாக்காது. கேஸ் ஸ்டேஷன் காபி அல்லது வேறு சில தொடர்புடைய நடப்பு நிகழ்வு பற்றி கருத்துக் கணிப்பு பதிலளித்தவர்களிடம் கேட்டது போல் தெரிகிறது. 

  1. சூப்பர் 
  2. கிரேட்
  3. நல்ல 

குற்றவாளியைப் பற்றிய குறிப்புகளை அகற்ற ட்விட்டர் இடுகையை செதுக்கியுள்ளேன், ஆனால் இதுவே கணக்கெடுப்பின் இறுதி முடிவுகளின் உண்மையான முழு விளக்கப்படம். இது போன்ற ஆய்வுகள் சாதாரணமானவை அல்ல. வெளிப்படையாக, பதில்களின் விளைவான தரவுகளிலிருந்து உருவாக்கப்பட்ட எந்த விளக்கப்படமும் கேள்விக்குரிய காப்பியைத் தவறவிடக் கூடாது என்பதைக் காண்பிக்கும்.  

பிரச்சனை என்னவென்றால், இந்தக் கருத்துக்கணிப்பு உங்களுக்கு வழங்கப்பட்டு, உங்கள் சிந்தனைக்கு ஏற்ற பதிலைக் காணவில்லை என்றால், நீங்கள் கணக்கெடுப்பைத் தவிர்த்துவிடுவீர்கள். நம்பத்தகாத தரவுகளை எவ்வாறு உருவாக்க முடியும் என்பதற்கு இது ஒரு சிறந்த எடுத்துக்காட்டு. மோசமான கணக்கெடுப்பு வடிவமைப்பு, இருப்பினும், குறைவான பதில்களுக்கு வழிவகுக்கலாம் மற்றும் பதிலளிப்பவர்களுக்கு ஒரே ஒரு கருத்து மட்டுமே உள்ளது, இது பட்டம் பற்றிய விஷயம். தரவு சார்புடையது.

தரவு சார்புக்கான இந்த இரண்டாவது எடுத்துக்காட்டு "மோசமான கோவிட் 19 தவறாக வழிநடத்தும் வரைபடங்கள். " 

மீண்டும், இது நுட்பமானது மற்றும் முற்றிலும் வெளிப்படையானது அல்ல. ஃபுளோரிடாவில் உள்ள ஒரு கவுண்டியில் காலப்போக்கில் நேர்மறை COVID-19 வழக்குகளின் சதவீதத்தில் சீரான - கிட்டத்தட்ட மிகவும் மென்மையான - சரிவை பார் வரைபடம் காட்டுகிறது. வழக்குகள் குறைந்து வருகின்றன என்ற முடிவுக்கு நீங்கள் எளிதாக வரலாம். நன்றாக இருக்கிறது, காட்சிப்படுத்தல் துல்லியமாக தரவு பிரதிபலிக்கிறது. சிக்கல் தரவுகளில் உள்ளது. எனவே, இது மிகவும் நயவஞ்சகமான சார்பு, ஏனென்றால் நீங்கள் அதைப் பார்க்க முடியாது. இது தரவுகளில் சுடப்பட்டுள்ளது. நீங்கள் கேட்க வேண்டிய கேள்விகள், இதில் அடங்கும், யார் சோதிக்கப்படுகிறார்கள்? வேறு வார்த்தைகளில் கூறுவதானால், வகுத்தல் என்ன, அல்லது நாம் ஒரு சதவீதத்தைப் பார்க்கிறோம். அனுமானம் என்னவென்றால், இது முழு மக்கள்தொகை அல்லது குறைந்தபட்சம் ஒரு பிரதிநிதி மாதிரி.

இருப்பினும், இந்த காலகட்டத்தில், இந்த மாவட்டத்தில், குறைந்த எண்ணிக்கையிலான நபர்களுக்கு மட்டுமே சோதனைகள் வழங்கப்பட்டன. அவர்கள் கோவிட் போன்ற அறிகுறிகளைக் கொண்டிருக்க வேண்டும் அல்லது ஹாட் ஸ்பாட்களின் பட்டியலில் உள்ள ஒரு நாட்டிற்கு சமீபத்தில் பயணம் செய்திருக்க வேண்டும். கூடுதலாக, ஒவ்வொரு நேர்மறை சோதனையும் கணக்கிடப்பட்டது மற்றும் ஒவ்வொரு எதிர்மறை சோதனையும் கணக்கிடப்பட்டது என்பது முடிவுகளை குழப்புகிறது. பொதுவாக, ஒரு நபர் நேர்மறை சோதனை செய்தால், வைரஸ் அதன் போக்கை இயக்கும்போது அவர்கள் மீண்டும் சோதனை செய்வார்கள் மற்றும் எதிர்மறை சோதனை செய்வார்கள். எனவே, ஒரு வகையில், ஒவ்வொரு நேர்மறை வழக்குக்கும், எதிர்மறையான சோதனை வழக்கு உள்ளது, அது அதை ரத்து செய்கிறது. பெரும்பாலான சோதனைகள் எதிர்மறையானவை மற்றும் ஒவ்வொரு நபரின் எதிர்மறையான சோதனைகளும் கணக்கிடப்பட்டன. தரவு எவ்வாறு சார்புடையது மற்றும் முடிவுகளை எடுப்பதற்கு குறிப்பாக பயனுள்ளதாக இல்லை என்பதை நீங்கள் பார்க்கலாம். 

AI உள்ளீடு மற்றும் பயிற்சி ஒரு சார்புடையது

குறைந்தபட்சம் இரண்டு வழிகளில் AI பக்கச்சார்பான முடிவுகளுக்கு வழிவகுக்கலாம்: பாரபட்சமான தரவுகளுடன் தொடங்குதல் அல்லது சரியான தரவைச் செயலாக்க பக்கச்சார்பான வழிமுறைகளைப் பயன்படுத்துதல்.  

சார்பு உள்ளீடு

எண்களை நசுக்குவதற்கும், அதன் வழிமுறைகளைப் பயன்படுத்துவதற்கும், தரவுகளின் நம்பகமான பகுப்பாய்வைத் துப்புவதற்கும் AI ஐ நம்பலாம் என்ற எண்ணத்தில் நம்மில் பலர் இருக்கிறோம். செயற்கை நுண்ணறிவு பயிற்சி பெற்றால் மட்டுமே அது புத்திசாலித்தனமாக இருக்க முடியும். அது பயிற்றுவிக்கப்பட்ட தரவு அபூரணமாக இருந்தால், முடிவுகள் அல்லது முடிவுகளை நம்ப முடியாது. மேலே உள்ள சர்வே சார்பு விஷயத்தைப் போலவே, தரவு இருக்கக்கூடிய பல வழிகள் உள்ளன பக்கச்சார்பான இயந்திர கற்றலில்:.  

  • மாதிரி சார்பு - பயிற்சி தரவுத்தொகுப்பு முழு மக்கள்தொகையின் பிரதிநிதி அல்ல.
  • விலக்கு சார்பு - சில சமயங்களில் வெளிப்புறமாகத் தோன்றுவது உண்மையில் செல்லுபடியாகும், அல்லது, எதைச் சேர்க்க வேண்டும் (ஜிப் குறியீடுகள், தேதிகள், முதலியன) கோடு வரைகிறோம்.
  • அளவீட்டு சார்பு - கன்வென்ஷன் என்பது எப்பொழுதும் மாதவிடாயின் மையத்திலும் கீழும் இருந்து அளவிட வேண்டும், எடுத்துக்காட்டாக, வால்யூமெட்ரிக் குடுவைகள் அல்லது சோதனைக் குழாய்களில் திரவங்களை அளவிடும் போது (பாதரசம் தவிர.)
  • ரீகால் சார்பு - ஆராய்ச்சி பங்கேற்பாளர்களின் நினைவாற்றலைச் சார்ந்திருக்கும் போது.
  • பார்வையாளர் சார்பு - விஞ்ஞானிகள், எல்லா மனிதர்களையும் போலவே, அவர்கள் எதைப் பார்க்க எதிர்பார்க்கிறார்கள் என்பதைப் பார்ப்பதில் அதிக விருப்பம் கொண்டுள்ளனர்.
  • பாலியல் மற்றும் இனவாத சார்பு - பாலினம் அல்லது இனம் அதிகமாகவோ அல்லது குறைவாகவோ பிரதிநிதித்துவப்படுத்தப்படலாம்.  
  • அசோசியேஷன் சார்பு - தரவு ஸ்டீரியோடைப்களை வலுப்படுத்துகிறது

AI நம்பகமான முடிவுகளை வழங்க, அதன் பயிற்சி தரவு உண்மையான உலகத்தை பிரதிநிதித்துவப்படுத்த வேண்டும். முந்தைய வலைப்பதிவு கட்டுரையில் நாங்கள் விவாதித்தபடி, தரவுத் தயாரிப்பானது மற்ற தரவுத் திட்டத்தைப் போலவே முக்கியமானது. நம்பகத்தன்மையற்ற தரவு இயந்திர கற்றல் அமைப்புகளுக்கு தவறான பாடத்தை கற்பிக்கலாம் மற்றும் தவறான முடிவுக்கு வழிவகுக்கும். அது, “எல்லா தரவுகளும் சார்புடையவை. இது சித்தப்பிரமை அல்ல. இது உண்மை." – டாக்டர். சஞ்சீவ் எம். நாராயண், ஸ்டான்போர்ட் யுனிவர்சிட்டி ஸ்கூல் ஆஃப் மெடிசின்.

பயிற்சிக்காக சார்புடைய தரவைப் பயன்படுத்துவது குறிப்பிடத்தக்க பல AI தோல்விகளுக்கு வழிவகுத்தது. (உதாரணங்கள் இங்கே மற்றும் இங்கே, ஆராய்ச்சி இங்கே..)

சார்பு அல்காரிதம்கள்

அல்காரிதம் என்பது உள்ளீட்டை ஏற்று, வணிகச் சிக்கலுக்குப் பதிலளிக்க வெளியீட்டை உருவாக்கும் விதிகளின் தொகுப்பாகும். அவை பெரும்பாலும் நன்கு வரையறுக்கப்பட்ட முடிவு மரங்கள். அல்காரிதம்கள் கருப்புப் பெட்டிகள் போல உணர்கின்றன. அவர்கள் எப்படி வேலை செய்கிறார்கள் என்பது யாருக்கும் உறுதியாகத் தெரியவில்லை அவற்றைப் பயன்படுத்தும் நிறுவனங்கள். ஓ, மேலும் அவை பெரும்பாலும் தனியுரிமை பெற்றவை. பாரபட்சமான வழிமுறைகள் மிகவும் நயவஞ்சகமாக இருப்பதற்கான காரணங்களில் அவற்றின் மர்மமான மற்றும் சிக்கலான தன்மையும் ஒன்றாகும். . 

மருத்துவம், மனிதவளம் அல்லது நிதி ஆகியவற்றில் AI அல்காரிதம்களைக் கவனியுங்கள், இது இனத்தைக் கருத்தில் கொள்கிறது. இனம் ஒரு காரணியாக இருந்தால், அல்காரிதம் இன குருடாக இருக்க முடியாது. இது தத்துவார்த்தமானது அல்ல. இது போன்ற பிரச்சனைகள் நிஜ உலகில் AI ஐ பயன்படுத்தி கண்டறியப்பட்டுள்ளது பணியமர்த்தல், சவாரி-பங்கு, கடன் விண்ணப்பம்கள், மற்றும் சிறுநீரக மாற்றங்கள்

இதன் முக்கிய அம்சம் என்னவென்றால், உங்கள் தரவு அல்லது அல்காரிதம்கள் மோசமாக இருந்தால், பயனற்றதை விட மோசமாக இருந்தால், அவை ஆபத்தானதாக இருக்கலாம். இது போன்ற ஒன்று உள்ளது "அல்காரிதம் தணிக்கை." நேர்மை, சார்பு மற்றும் பாகுபாடு ஆகியவற்றுடன் தொடர்புடைய அல்காரிதம் தொடர்பான சாத்தியமான அபாயங்களைக் கண்டறிய நிறுவனங்களுக்கு உதவுவதே இதன் குறிக்கோள். மற்ற இடங்களில், பேஸ்புக் AI இல் சார்புக்கு எதிராக போராட AI ஐப் பயன்படுத்துகிறது.

மக்கள் சார்புடையவர்கள்

சமன்பாட்டின் இருபுறமும் மக்கள் உள்ளனர். மக்கள் பகுப்பாய்வைத் தயாரிக்கிறார்கள் மற்றும் மக்கள் தகவல்களைப் பெறுகிறார்கள். ஆராய்ச்சியாளர்களும் இருக்கிறார்கள், வாசகர்களும் இருக்கிறார்கள். எந்தவொரு தகவல்தொடர்பிலும், பரிமாற்றம் அல்லது வரவேற்பில் சிக்கல்கள் இருக்கலாம்.

உதாரணமாக வானிலையை எடுத்துக் கொள்ளுங்கள். "மழைக்கான வாய்ப்பு" என்றால் என்ன? முதலில், மழை பெய்ய வாய்ப்பு இருப்பதாக வானிலை ஆய்வாளர்கள் கூறும்போது என்ன அர்த்தம்? அமெரிக்க அரசாங்கத்தின் கூற்றுப்படி தேசிய வானிலை சேவை, மழைக்கான வாய்ப்பு, அல்லது அவர்கள் மழைப்பொழிவு நிகழ்தகவு (PoP) என்று அழைக்கப்படுவது, வானிலை முன்னறிவிப்பில் குறைவாகப் புரிந்துகொள்ளப்பட்ட கூறுகளில் ஒன்றாகும். இது ஒரு நிலையான வரையறையைக் கொண்டுள்ளது: "மழைப்பொழிவின் நிகழ்தகவு என்பது குறிப்பிட்ட காலப்பகுதியில் கொடுக்கப்பட்ட முன்னறிவிப்பு பகுதியில் கொடுக்கப்பட்ட பகுதியில் 0.01" அங்குல [sic] அதிக மழைப்பொழிவின் புள்ளிவிவர நிகழ்தகவு ஆகும்." "கொடுக்கப்பட்ட பகுதி" என்பது முன்னறிவிப்பு பகுதி, அல்லது பிroadவார்ப்பு பகுதி. அதாவது மழைப்பொழிவுக்கான அதிகாரப்பூர்வ நிகழ்தகவு, அந்த பகுதியில் எங்காவது மழை பெய்யும் என்ற நம்பிக்கை மற்றும் ஈரமாக இருக்கும் பகுதியின் சதவீதத்தைப் பொறுத்தது. வேறு வார்த்தைகளில் கூறுவதானால், முன்னறிவிப்பு பகுதியில் (நம்பிக்கை = 100%) மழை பெய்யும் என்று வானிலை ஆய்வாளர் உறுதியாக நம்பினால், PoP என்பது மழை பெறும் பகுதியின் பகுதியைக் குறிக்கிறது.  

பாரிஸ் தெரு; மழை நாள்,குஸ்டாவ் கெய்லிபோட் (1848-1894) சிகாகோ கலை நிறுவனம் பொது களம்

மழைக்கான வாய்ப்பு நம்பிக்கை மற்றும் பகுதி இரண்டையும் சார்ந்துள்ளது. எனக்கு அது தெரியாது. மற்றவர்களுக்கு இது தெரியாது என்று நான் சந்தேகிக்கிறேன். மக்கள்தொகையில் சுமார் 75% மக்கள் PoP எவ்வாறு கணக்கிடப்படுகிறது அல்லது அது எதைப் பிரதிநிதித்துவப்படுத்துகிறது என்பதைத் துல்லியமாகப் புரிந்து கொள்ளவில்லை. எனவே, நாம் முட்டாளாக்கப்படுகிறோமா, அல்லது, இது உணர்வின் பிரச்சனையா. அதை மழைப்பொழிவு உணர்தல் என்று கொள்வோம். வானிலை முன்னறிவிப்பாளரைக் குறை கூறுகிறோமா? சரியாகச் சொல்வதானால், சில உள்ளன குழப்பம் வானிலை முன்னறிவிப்பாளர்கள் மத்தியில் கூட. ஒன்றில் கணக்கெடுப்பு, 43% வானிலை ஆய்வாளர்கள் PoP இன் வரையறையில் மிகக் குறைவான நிலைத்தன்மை இருப்பதாகக் கூறியுள்ளனர்.

பகுப்பாய்வே பக்கச்சார்பானது

ஐந்து செல்வாக்கு காரணிகளில், பகுப்பாய்வு மிகவும் ஆச்சரியமாக இருக்கலாம். விஞ்ஞான ஆராய்ச்சியில், மதிப்பாய்வு செய்யப்பட்ட தாள் வெளியிடப்படுகிறது, பொதுவாக ஒரு கோட்பாடு அனுமானிக்கப்படுகிறது, கருதுகோளைச் சோதிக்கும் முறைகள் வரையறுக்கப்படுகின்றன, தரவு சேகரிக்கப்பட்டு, பின்னர் தரவு பகுப்பாய்வு செய்யப்படுகிறது. செய்யப்படும் பகுப்பாய்வு வகை மற்றும் அது எவ்வாறு செய்யப்படுகிறது என்பது முடிவுகளை எவ்வாறு பாதிக்கிறது என்பதில் குறைவாக மதிப்பிடப்படுகிறது. ஒரு காகித இந்த ஆண்டின் தொடக்கத்தில் (ஜனவரி 2022) வெளியிடப்பட்டது, இன்டர்நேஷனல் ஜர்னல் ஆஃப் கேன்சரில், சீரற்ற கட்டுப்பாட்டு சோதனைகள் மற்றும் பிற்போக்கு கண்காணிப்பு ஆய்வுகளின் முடிவுகளை ஆசிரியர்கள் மதிப்பீடு செய்தனர். அவர்களின் கண்டுபிடிப்புகள் முடிவு செய்தன,

ஒப்பீட்டு செயல்திறன் ஆராய்ச்சியில் மாறுபட்ட பகுப்பாய்வு தேர்வுகள் மூலம், நாங்கள் எதிர் விளைவுகளை உருவாக்கினோம். சில பின்னோக்கி அவதானிப்பு ஆய்வுகள், சிகிச்சையானது நோயாளிகளுக்கு விளைவுகளை மேம்படுத்துகிறது என்று எங்கள் முடிவுகள் தெரிவிக்கின்றன, அதே சமயம் இதேபோன்ற மற்றொரு ஆய்வு அது வெறுமனே பகுப்பாய்வுத் தேர்வுகளின் அடிப்படையில் இல்லை என்பதைக் கண்டறியலாம்.

கடந்த காலத்தில், ஒரு அறிவியல் பத்திரிக்கை கட்டுரையைப் படிக்கும்போது, ​​நீங்கள் என்னைப் போல் இருந்தால், முடிவுகள் அல்லது முடிவுகள் அனைத்தும் தரவுகளைப் பற்றியது என்று நீங்கள் நினைத்திருக்கலாம். இப்போது, ​​முடிவுகள் அல்லது ஆரம்ப கருதுகோள் உறுதிப்படுத்தப்பட்டதா அல்லது மறுக்கப்பட்டதா என்பது பகுப்பாய்வு முறையைப் பொறுத்தது.

மற்றொரு ஆய்வு ஒத்த முடிவுகளைக் கண்டறிந்தது. கட்டுரை, பல ஆய்வாளர்கள், ஒரு தரவுத் தொகுப்பு: பகுப்பாய்வுத் தேர்வுகளில் உள்ள மாறுபாடுகள் முடிவுகளை எவ்வாறு பாதிக்கின்றன என்பதை வெளிப்படையாக்குதல், பகுப்பாய்வு செய்ய 29 வெவ்வேறு குழுக்களுக்கு ஒரே தரவை எவ்வாறு வழங்கினர் என்பதை விவரிக்கிறது. தரவு பகுப்பாய்வு பெரும்பாலும் கண்டிப்பான, நன்கு வரையறுக்கப்பட்ட செயல்முறையாகக் காணப்படுகிறது, இது ஒரு முடிவுக்கு வழிவகுக்கிறது.  

முறையியலாளர்களின் நிரூபணங்கள் இருந்தபோதிலும், முடிவுகள் தேர்ந்தெடுக்கப்பட்ட பகுப்பாய்வு மூலோபாயத்தைப் பொறுத்தது என்ற உண்மையைக் கவனிக்காமல் விடுவது எளிது, இது கோட்பாடு, அனுமானங்கள் மற்றும் தேர்வுப் புள்ளிகள் ஆகியவற்றால் தூண்டப்படுகிறது. பல சந்தர்ப்பங்களில், ஒரு ஆராய்ச்சிக் கேள்வியைத் தாங்கும் தரவை மதிப்பிடுவதற்கு பல நியாயமான (மற்றும் பல நியாயமற்ற) அணுகுமுறைகள் உள்ளன.

ஆராய்ச்சியாளர்கள் தரவுகளின் பகுப்பாய்வைக் கூட்டாகப் பயன்படுத்தி, அனைத்து ஆராய்ச்சிகளும் அகநிலை முடிவுகளை உள்ளடக்கியது - எந்த வகையான பகுப்பாய்வு பயன்படுத்த வேண்டும் என்பது உட்பட - இது ஆய்வின் இறுதி முடிவை பாதிக்கலாம்.

மற்றொருவரின் பரிந்துரை ஆராய்ச்சியாளர் மேற்கூறிய ஆய்வை ஆய்வு செய்தவர்கள், முடிவுகளை எடுப்பதில் அல்லது முடிவுகளை எடுப்பதில் ஒரு தாளைப் பயன்படுத்தும் போது எச்சரிக்கையாக இருக்க வேண்டும்.

பகுப்பாய்வில் சார்புநிலையை நிவர்த்தி செய்தல்

இது வெறுமனே ஒரு எச்சரிக்கைக் கதையாக இருக்க வேண்டும். அறிவு நம்மை மோசடிகளில் இருந்து பாதுகாக்கும். ஒரு ஸ்கேனர் நம்மை முட்டாளாக்கப் பயன்படுத்தக்கூடிய சாத்தியமான முறைகளைப் பற்றி அதிகம் அறிந்தால், பிக்பாக்கெட்காரனின் தவறான வழிநடத்துதல் அல்லது பொன்சி நாடகத்தின் சுமூகமான பேச்சு போன்றவற்றால் நாம் எடுத்துக்கொள்ளப்படுவதற்கான வாய்ப்புகள் குறைவு. எனவே, நமது பகுப்பாய்வுகளைப் பாதிக்கும் சாத்தியமான சார்புகளைப் புரிந்துகொள்வதும் அங்கீகரிப்பதும் ஆகும். சாத்தியமான தாக்கங்களை நாம் அறிந்திருந்தால், கதையை சிறப்பாக முன்வைத்து இறுதியில் சிறந்த முடிவுகளை எடுக்க முடியும்.  

BI/பகுப்பாய்வுபகுக்கப்படாதது
மைக்ரோசாஃப்ட் எக்செல் ஏன் #1 பகுப்பாய்வுக் கருவியாகும்
எக்செல் ஏன் #1 அனலிட்டிக்ஸ் கருவி?

எக்செல் ஏன் #1 அனலிட்டிக்ஸ் கருவி?

  இது மலிவானது மற்றும் எளிதானது. மைக்ரோசாஃப்ட் எக்செல் விரிதாள் மென்பொருள் வணிக பயனரின் கணினியில் ஏற்கனவே நிறுவப்பட்டிருக்கலாம். இன்று பல பயனர்கள் மைக்ரோசாஃப்ட் ஆபிஸ் மென்பொருளை உயர்நிலைப் பள்ளியிலிருந்து அல்லது அதற்கு முந்தைய காலத்திலிருந்து வெளிப்படுத்தியுள்ளனர். இந்த மொக்கை பதில்...

மேலும் படிக்க

BI/பகுப்பாய்வுபகுக்கப்படாதது
உங்கள் நுண்ணறிவுகளை அவிழ்த்து விடுங்கள்: அனலிட்டிக்ஸ் ஸ்பிரிங் கிளீனிங்கிற்கான வழிகாட்டி

உங்கள் நுண்ணறிவுகளை அவிழ்த்து விடுங்கள்: அனலிட்டிக்ஸ் ஸ்பிரிங் கிளீனிங்கிற்கான வழிகாட்டி

Unclutter Your Insights A Guide to Analytics Spring Cleaning புதிய ஆண்டு களமிறங்குகிறது; ஆண்டு இறுதி அறிக்கைகள் உருவாக்கப்பட்டு ஆய்வு செய்யப்படுகின்றன, பின்னர் அனைவரும் சீரான பணி அட்டவணையில் குடியேறுகின்றனர். நாட்கள் நீண்டு, மரங்களும் பூக்களும் பூத்துக் குலுங்க...

மேலும் படிக்க

BI/பகுப்பாய்வுபகுக்கப்படாதது
NY ஸ்டைல் ​​வெர்சஸ். சிகாகோ ஸ்டைல் ​​பிஸ்ஸா: ஒரு சுவையான விவாதம்

NY ஸ்டைல் ​​வெர்சஸ். சிகாகோ ஸ்டைல் ​​பிஸ்ஸா: ஒரு சுவையான விவாதம்

நமது பசியை திருப்தி செய்யும் போது, ​​சில விஷயங்கள் சூடான பீட்சா துண்டுகளின் மகிழ்ச்சிக்கு போட்டியாக இருக்கும். நியூயார்க் பாணி மற்றும் சிகாகோ பாணி பீட்சா இடையேயான விவாதம் பல தசாப்தங்களாக உணர்ச்சிமிக்க விவாதங்களைத் தூண்டியுள்ளது. ஒவ்வொரு பாணியும் அதன் தனித்துவமான குணாதிசயங்கள் மற்றும் அர்ப்பணிப்புள்ள ரசிகர்களைக் கொண்டுள்ளது.

மேலும் படிக்க

BI/பகுப்பாய்வுகாக்னோஸ் அனலிட்டிக்ஸ்
காக்னோஸ் வினவல் ஸ்டுடியோ
உங்கள் பயனர்கள் தங்கள் வினவல் ஸ்டுடியோவை விரும்புகிறார்கள்

உங்கள் பயனர்கள் தங்கள் வினவல் ஸ்டுடியோவை விரும்புகிறார்கள்

IBM Cognos Analytics 12 இன் வெளியீட்டுடன், Query Studio மற்றும் Analysis Studio ஆகியவற்றின் நீண்டகால அறிவிக்கப்பட்ட நீக்கம் இறுதியாக அந்த ஸ்டுடியோக்களைக் கழித்த Cognos Analytics இன் பதிப்புடன் வழங்கப்பட்டது. இதில் ஈடுபட்டுள்ள பெரும்பாலானோருக்கு இது ஆச்சரியமாக இருக்கக்கூடாது என்றாலும்...

மேலும் படிக்க

BI/பகுப்பாய்வுபகுக்கப்படாதது
டெய்லர் ஸ்விஃப்ட் விளைவு உண்மையானதா?

டெய்லர் ஸ்விஃப்ட் விளைவு உண்மையானதா?

சில விமர்சகர்கள் அவர் சூப்பர் பவுல் டிக்கெட் விலையை உயர்த்துவதாகக் கூறுகிறார்கள் இந்த வார இறுதியில் சூப்பர் பவுல் தொலைக்காட்சி வரலாற்றில் அதிகம் பார்க்கப்பட்ட முதல் 3 நிகழ்வுகளில் ஒன்றாக இருக்கும் என்று எதிர்பார்க்கப்படுகிறது. அனேகமாக கடந்த ஆண்டு சாதனை படைத்த எண்களை விட அதிகமாக இருக்கலாம் மற்றும் 1969 சந்திரனை விட அதிகமாக இருக்கலாம்...

மேலும் படிக்க

BI/பகுப்பாய்வு
Analytics Catalogs – A ரைசிங் ஸ்டார் in the Analytics Ecosystem

Analytics Catalogs – A ரைசிங் ஸ்டார் in the Analytics Ecosystem

ஒரு தலைமை தொழில்நுட்ப அதிகாரியாக (CTO) அறிமுகம், பகுப்பாய்வை நாம் அணுகும் விதத்தை மாற்றும் வளர்ந்து வரும் தொழில்நுட்பங்களை நான் எப்போதும் கவனித்து வருகிறேன். கடந்த சில ஆண்டுகளாக எனது கவனத்தை ஈர்த்த மற்றும் மகத்தான வாக்குறுதியைக் கொண்ட அத்தகைய தொழில்நுட்பங்களில் ஒன்று Analytics...

மேலும் படிக்க