විශ්ලේෂණ බොරු

by Aug 31, 2022BI/Analytics0 අදහස්

විශ්ලේෂණ බොරු

විශ්ලේෂණයේ නැඹුරුව

 

මාර්ක් ට්වේන් විවාදාත්මකව පැවසුවේ, “බොරු වර්ග තුනක් තිබේ: බොරු, අමූලික බොරු සහ විශ්ලේෂී. " 

විශ්ලේෂණ මගින් අපට ප්‍රයෝජනවත්, ක්‍රියා කළ හැකි තීක්ෂ්ණ බුද්ධියක් ලබා දෙන බව අපි සැහැල්ලුවට ගනිමු. අප බොහෝ විට නොදකින දෙය නම්, වඩාත් සංකීර්ණ මෘදුකාංග සහ පද්ධති පවා අපට ලබා දෙන පිළිතුරුවලට අපගේ සහ වෙනත් අයගේ පක්ෂග්‍රාහීත්වය බලපාන්නේ කෙසේද යන්නයි. සමහර විට, අප වංක ලෙස හසුරුවා ගත හැකි නමුත්, වඩාත් පොදුවේ, එය අපගේ විශ්ලේෂණ තුළට රිංගා ගන්නා සියුම් සහ අවිඥානික පක්ෂග්‍රාහී විය හැකිය. පක්ෂග්‍රාහී විශ්ලේෂණ පිටුපස ඇති අභිප්‍රේරණය බොහෝ වේ. සමහර විට විද්‍යාවෙන් අප බලාපොරොත්තු වන අපක්ෂපාතී ප්‍රතිඵලවලට බලපෑම් ඇති වන්නේ 1) දත්ත ඉදිරිපත් කරන ආකාරය පිළිබඳ සියුම් තේරීම්, 2) නොගැලපෙන හෝ නියෝජන නොවන දත්ත, 3) AI පද්ධති පුහුණු කරන ආකාරය, 4) පර්යේෂකයන්ගේ හෝ උත්සාහ කරන අයගේ නොදැනුවත්කම, නොහැකියාව කතාව පැවසීමට, 5) විශ්ලේෂණයම.    

ඉදිරිපත් කිරීම පක්ෂග්‍රාහී ය

සමහර බොරු අන් අයට වඩා පහසුවෙන් හඳුනා ගත හැකිය. සෙවිය යුතු දේ ඔබ දන්නා විට ඔබට විභවය වඩාත් පහසුවෙන් හඳුනාගත හැකිය නොමග යවන ප්‍රස්ථාර සහ ප්‍රස්ථාර. 

අවම වශයෙන් ඇත නොමඟ යවන අයුරින් දත්ත සංදර්ශන කිරීමට ක්‍රම පහක්: 1) සීමිත දත්ත කට්ටලයක් පෙන්වන්න, 2). අසම්බන්ධිත සහසම්බන්ධතා පෙන්වන්න, 3) දත්ත සාවද්‍ය ලෙස පෙන්වන්න, 4) සාම්ප්‍රදායික නොවන ලෙස දත්ත පෙන්වන්න, හෝ 5). ඉතා සරල කළ දත්ත පෙන්වන්න.

සීමිත දත්ත කට්ටලයක් පෙන්වන්න

දත්ත සීමා කිරීම හෝ දත්තවල අහඹු නොවන කොටසක් අතින් තෝරා ගැනීම බොහෝ විට විශාල පින්තූරයට අනුකූල නොවන කතාවක් පැවසිය හැකිය. නරක නියැදීම, හෝ චෙරි අහුලා ගැනීම, විශ්ලේෂකයා විශාල කණ්ඩායමක් නියෝජනය කිරීම සඳහා නියෝජිත නොවන නියැදියක් භාවිතා කරයි. 

මාර්තු 2020, ජෝර්ජියාවේ මහජන සෞඛ්‍ය දෙපාර්තමේන්තුව එහි දෛනික තත්ව වාර්තාවේ කොටසක් ලෙස මෙම ප්‍රස්ථාරය ප්‍රකාශයට පත් කරන ලදී. එය සැබවින්ම පිළිතුරු වලට වඩා ප්‍රශ්න මතු කරයි.  

අතුරුදහන් වූ එක් දෙයක් නම් සන්දර්භයයි. නිදසුනක් වශයෙන්, එක් එක් වයස් කාණ්ඩය සඳහා ජනගහනයේ ප්රතිශතය කොපමණ දැයි දැන ගැනීම ප්රයෝජනවත් වනු ඇත. සරල පෙනුමක් ඇති පයි ප්‍රස්ථාරයේ තවත් ගැටළුවක් වන්නේ අසමාන වයස් කාණ්ඩ වේ. 0-17 ට අවුරුදු 18 යි, 18-59 ට 42 යි, 60+ විවෘත අවසානයයි, නමුත් අවුරුදු 40 ක් විතර තියෙනවා. මෙම ප්‍රස්ථාරයෙන් පමණක් ගත් නිගමනය නම්, බොහෝ අවස්ථාවන් වයස අවුරුදු 18-59 වයස් කාණ්ඩයේ අය බවයි. වයස අවුරුදු 60+ වයස් කාණ්ඩයට COVID රෝගීන්ගේ බලපෑම අඩු බව පෙනේ. නමුත් මෙය සම්පූර්ණ කතාව නොවේ.

සංසන්දනය කිරීම සඳහා, මෙම වෙනස් දත්ත කට්ටලය මත CDC වෙබ් අඩවිය එක් එක් වයස් පරාසය තුළ සිටින එක්සත් ජනපද ජනගහනයේ ප්‍රතිශතය පිළිබඳ අමතර දත්ත සමඟ වයස් කාණ්ඩ අනුව COVID සිද්ධීන් ප්‍රස්ථාරගත කරන්න.  

මෙය වඩා හොඳය. අපට තවත් සන්දර්භයක් ඇත. වයස අවුරුදු 18-29, 30-39, 40-49 යන වයස් කාණ්ඩ සියල්ලටම ජනගහනයේ වයස් කාණ්ඩයේ ප්‍රතිශතයට වඩා වැඩි ප්‍රතිශතයක් ඇති බව අපට පෙනේ. තවමත් අසමාන වයස් කාණ්ඩ කිහිපයක් තිබේ. 16-17 වෙනම වයස් කාණ්ඩයක් වන්නේ ඇයි? තවමත් මෙය සම්පූර්ණ කතාව නොවේ, නමුත් පණ්ඩිතයන් මීට වඩා අඩුවෙන් තීරු ලිපි ලියා, අනාවැකි පළ කර ඇත. පැහැදිලිවම, COVID සමඟ, ධනාත්මක අවස්ථාවක් ලෙස ගණන් ගැනීමට බලපාන වයසට අමතරව බොහෝ විචල්‍යයන් ඇත: එන්නත් කිරීමේ තත්ත්වය, පරීක්ෂණ ලබා ගැනීමේ හැකියාව, පරීක්‍ෂා කළ වාර ගණන, රෝගාබාධ සහ තවත් බොහෝ දේ. අවස්ථා ගණන, අසම්පූර්ණ පින්තූරයක් සපයයි. බොහෝ ප්‍රවීණයන් මරණ සංඛ්‍යාව හෝ ජනගහනය 100,000කට සිදුවන මරණ ප්‍රතිශතය හෝ එක් එක් වයස් කාණ්ඩයට COVID බලපාන්නේ කෙසේද යන්න සොයා බැලීමට සිද්ධි-මරණ දෙස ද බලයි.

සම්බන්ධ නොවන සහසම්බන්ධතා පෙන්වන්න

පැහැදිලිවම, a ඇත ශක්තිමත් සහසම්බන්ධය විද්‍යාව, අභ්‍යවකාශය සහ තාක්‍ෂණය සඳහා එ.ජ. වියදම් සහ එල්ලීම, ගෙල සිර කිරීම සහ හුස්ම හිරවීම මගින් සියදිවි නසාගැනීම් සංඛ්‍යාව අතර. සහසම්බන්ධය 99.79%, ආසන්න වශයෙන් පරිපූර්ණ ගැලපීමකි.  

කෙසේ වෙතත්, මේවා කෙසේ හෝ සම්බන්ධ බව හෝ එකක් අනෙකට හේතු වන බව තර්ක කරන්නේ කවුද? තවත් අඩු ආන්තික උදාහරණ ඇත, නමුත් අඩු ව්යාජ නොවේ. Winning Word of Scripps National Spelling Bee හි අකුරු සහ විෂ සහිත මකුළුවන් විසින් මරා දමන ලද පුද්ගලයින් සංඛ්‍යාව අතර සමාන ශක්තිමත් සහසම්බන්ධයක් ඇත. අහම්බයක්ද? ඔබ තීරණය කරන්න.

නොමඟ යවන සුළු විය හැකි මෙම දත්ත ප්‍රස්ථාරගත කිරීමට තවත් ක්‍රමයක් වනුයේ Y-අක්ෂ දෙකෙහිම ශුන්‍යය ඇතුළත් කිරීමයි.

දත්ත වැරදි ලෙස පෙන්වන්න

සිට දත්ත නරක ලෙස පෙන්වන්නේ කෙසේද, එක්සත් ජනපදයේ ජෝර්ජියා ප්‍රාන්තය විසින් තහවුරු කරන ලද විශාලතම COVID-5 රෝගීන් සංඛ්‍යාව සහිත ඉහළම ප්‍රාන්ත 19 ඉදිරිපත් කරන ලදී.

නීත්‍යානුකූලයි වගේ නේද? තහවුරු වූ COVID-19 රෝගීන්ගේ පහත වැටීමේ ප්‍රවණතාවක් පැහැදිලිවම පවතී. ඔබට X අක්ෂය කියවිය හැකිද? X අක්ෂය කාලය නියෝජනය කරයි. සාමාන්යයෙන්, දින වමේ සිට දකුණට වැඩි වේ. මෙන්න, අපි X-අක්ෂයේ කුඩා කාල ගමනක් දකිමු: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

ඉන්නද? කුමක් ද? X අක්ෂය කාලානුක්‍රමිකව වර්ග කර නැත. එබැවින්, ප්‍රවණතාවය පෙනෙන පරිදි, අපට කිසිදු නිගමනයකට එළඹිය නොහැක. දින නියම කර ඇත්නම්, නඩු ගණන සඳහා තීරු ඕනෑම ආකාරයක ප්රවණතාවකට වඩා කියත් රටාවක් පෙන්වයි.

මෙහි ඇති පහසු විසඳුම වන්නේ දින දර්ශනයක් කරන ආකාරයට දින වර්ග කිරීමය.

සාම්ප්‍රදායික නොවන ලෙස දත්ත පෙන්වන්න

අපි හැමෝම කාර්යබහුලයි. අපගේ ලෝකයේ ස්ථාවර වූ උපකල්පන මත පදනම්ව ඉක්මන් විනිශ්චයන් කිරීමට අපගේ මොළය අපට උගන්වා ඇත. උදාහරණයක් ලෙස, මා මෙතෙක් දැක ඇති සෑම ප්‍රස්ථාරයකම x- සහ y- අක්ෂ රැස්වීම් ශුන්‍ය හෝ අඩුම අගයන් පෙන්වයි. මෙම ප්‍රස්ථාරය දෙස කෙටියෙන් බැලීමෙන්, ෆ්ලොරිඩාවේ බලපෑම පිළිබඳව ඔබට ගත හැකි නිගමන මොනවාද? “ඔබේ මූලික නීතිය ස්ථාවර කරන්න.”? මට එය පිළිගැනීමට ලැජ්ජයි, නමුත් මෙම ප්‍රස්ථාරය මුලදී මාව රැවටුවා. ඔබේ ඇස ග්‍රැෆික් මැද ඇති අකුරු සහ ඊතලය වෙත පහසුවෙන් ඇදී යයි. මෙම ප්‍රස්ථාරයේ පහළ ඉහළයි. එය බොරුවක් නොවිය හැකිය - දත්ත සියල්ලම හරි. නමුත්, එය රැවටීමට අදහස් කරන බව මට සිතිය යුතුය. ඔබ තවමත් එය දැක නොමැති නම්, y-අක්ෂයේ බිංදුව ඉහළින්ම ඇත. ඉතින්, දත්ත ප්‍රවණතා අඩු වන විට, එයින් අදහස් වන්නේ වැඩි මරණ සංඛ්‍යාවයි. මේ ප්‍රස්ථාරයෙන් පෙනෙන්නේ ගිනි අවි භාවිත කරමින් සිදු වූ ඝාතන සංඛ්‍යාවයි වැඩි විය 2005 න් පසු, යන ප්‍රවණතාවයෙන් පෙන්නුම් කෙරේ බිම.

ඉතා සරල කළ දත්ත පෙන්වන්න

විශ්ලේෂකයින් සිම්ප්සන්ගේ විරුද්ධාභාසයෙන් ප්‍රයෝජන ගන්නා විට දත්ත අධික ලෙස සරල කිරීමේ එක් උදාහරණයක් දැකිය හැකිය. මෙය සමූහගත දත්ත උප කුලකවලට වෙන් කරන විට වඩා වෙනස් නිගමනයක් පෙන්නුම් කරන විට ඇතිවන සංසිද්ධියකි. ඉහළ මට්ටමේ සමූහගත ප්‍රතිශත දෙස බලන විට මෙම උගුලට වැටීම පහසුය. සිම්ප්සන්ගේ විරුද්ධාභාසයේ පැහැදිලි නිදර්ශන වලින් එකක් සම්බන්ධ වේ පිතිකරණ සාමාන්‍යයන්.  

ඩෙරෙක් ජෙටර් 1995 සහ 1996 වාර සඳහා ඩේවිඩ් ජස්ටිස් වලට වඩා වැඩි සමස්ත පිතිකරණ සාමාන්‍යයක් ඇති බව මෙහිදී අපට පෙනේ. එම වසර දෙකේදීම ජස්ටිස් ජෙටර්ට පිතිකරණ සාමාන්‍යයක් ලබා දුන් බව අපට වැටහෙන විට විරුද්ධාභාසය පැමිණේ. ඔබ හොඳින් බැලුවහොත්, 4 දී .1996 අඩු සාමාන්‍යයක් ලෙස 007 දී ජෙටර්ට දළ වශයෙන් 1996 ගුණයකින් වැඩි ඇට්-බැට් (හරය) තිබූ බව ඔබට වැටහෙන විට එය අර්ථවත් වේ. 10 දී 003 ඉහළ සාමාන්‍යය.

ඉදිරිපත් කිරීම සෘජු ලෙස පෙනේ, නමුත් සිම්ප්සන්ගේ විරුද්ධාභාසය, දැනුවත්ව හෝ නොදැනුවත්ව වැරදි නිගමනවලට තුඩු දී ඇත. මෑතකදී, එන්නත් සහ COVID මරණ සම්බන්ධ ප්‍රවෘත්ති සහ සමාජ මාධ්‍යවල Simpson's Paradox පිළිබඳ උදාහරණ තිබේ. එක සටහන වයස අවුරුදු 10-59 වයස්වල පුද්ගලයින් සඳහා එන්නත් කරන ලද සහ එන්නත් නොකළ මරණ අනුපාත සංසන්දනය කරන රේඛා ප්‍රස්ථාරයක් පෙන්වයි. ප්‍රස්ථාරයෙන් පෙන්නුම් කරන්නේ එන්නත් නොලද අයගේ මරණ අනුපාතිකය අඩු මට්ටමක පවතින බවයි. මොකද මෙතන වෙන්නෙ?  

ප්‍රශ්නය පිතිකරණ සාමාන්‍ය සමඟ අප දකින ප්‍රශ්නයට සමානය. මෙම නඩුවේ හරය වන්නේ එක් එක් වයස් කාණ්ඩයේ පුද්ගලයන් සංඛ්යාවයි. ප්‍රස්තාරය විවිධ ප්‍රතිඵල ඇති කණ්ඩායම් ඒකාබද්ධ කරයි. අපි වැඩිහිටි වයස් කාණ්ඩය, 50-59, වෙන වෙනම බැලුවහොත්, එන්නත් කරන ලද ගාස්තුව වඩා හොඳ බව අපට පෙනේ. එලෙසම, අපි 10-49 දෙස බැලුවහොත්, එන්නත් කරන ලද ගාස්තුව වඩා හොඳ බව අපට පෙනේ. පරස්පර විරෝධී ලෙස, ඒකාබද්ධ කට්ටලය දෙස බලන විට, එන්නත් නොකළ අය වඩාත් නරක ප්රතිඵලය ඇති බව පෙනේ. මේ ආකාරයෙන්, ඔබට දත්ත භාවිතා කරමින් ප්‍රතිවිරුද්ධ තර්ක සඳහා නඩුවක් ඉදිරිපත් කළ හැකිය.

දත්ත පක්ෂග්‍රාහී වේ

දත්ත සැමවිටම විශ්වාස කළ නොහැක. විද්‍යාත්මක ප්‍රජාව තුළ පවා, සමීක්ෂණයට ලක් කළ පර්යේෂකයින්ගෙන් තුනෙන් එකකට වඩා පිළිගත්තා "ප්රශ්නකාරී පර්යේෂණ පිළිවෙත්."  තවත් පර්යේෂණ වංචා රහස් පරීක්ෂක පවසයි, "දත්ත වල බොහෝ වංචාවන් ඇත - වගු, රේඛා ප්‍රස්ථාර, අනුක්‍රමික දත්ත [- අපි ඇත්ත වශයෙන්ම සොයා ගැනීමට වඩා]. ඔවුන්ගේ මුළුතැන්ගෙයි මේසයේ වාඩි වී සිටින ඕනෑම කෙනෙකුට පැතුරුම්පතක අංක කිහිපයක් දමා ඒත්තු ගැන්විය හැකි රේඛා ප්‍රස්ථාරයක් සෑදිය හැකිය.

මේ පළවෙනි එක උදාහරණයක් කවුරුහරි ඒක කළා වගේ. මම මෙය වංචාවක් යැයි නොකියමි, නමුත් සමීක්ෂණයක් ලෙස, එය දැනුවත් තීරණයකට දායක වන දත්ත කිසිවක් ජනනය නොකරයි. සමීක්ෂණය ප්‍රතිචාර දැක්වූවන්ගෙන් ඉන්ධන පිරවුම්හල් කෝපි පිළිබඳ ඔවුන්ගේ මතය හෝ වෙනත් අදාළ වර්තමාන සිදුවීමක් ගැන විමසූ බවක් පෙනේ. 

  1. සුපිරියි 
  2. මහා
  3. බොහොම හොඳයි 

මම වැරදි පාර්ශවය වෙත යොමු කිරීම් ඉවත් කිරීමට ට්විටර් සටහන කපා ඇත, නමුත් මෙය සමීක්ෂණයේ අවසාන ප්‍රතිඵලවල සත්‍ය සම්පූර්ණ ප්‍රස්ථාරයයි. මෙවැනි සමීක්ෂණ සාමාන්‍ය දෙයක් නොවේ. නිසැකවම, ප්‍රතිචාර වලින් ලැබෙන දත්ත වලින් සාදන ලද ඕනෑම ප්‍රස්ථාරයක් ප්‍රශ්නගත කෝපි අතපසු නොකළ යුතු බව පෙන්වයි.  

ගැටලුව වන්නේ ඔබට මෙම සමීක්ෂණය ලබා දී ඇත්නම් සහ ඔබේ චින්තනයට ගැලපෙන ප්‍රතිචාරයක් සොයාගත නොහැකි නම්, ඔබ සමීක්ෂණය මඟ හැරීමයි. මෙය විශ්වාස කළ නොහැකි දත්ත නිර්මාණය කළ හැකි ආකාරය පිළිබඳ ආන්තික උදාහරණයක් විය හැකිය. දුර්වල සමීක්ෂණ සැලසුම්, කෙසේ වෙතත්, අඩු ප්‍රතිචාරවලට තුඩු දිය හැකි අතර ප්‍රතිචාර දක්වන අයට ඇත්තේ එක් මතයක් පමණි, එය උපාධිය පිළිබඳ ප්‍රශ්නයක් පමණි. දත්ත පක්ෂග්රාහී වේ.

දත්ත නැඹුරුව පිළිබඳ මෙම දෙවන උදාහරණය වන්නේ "නරකම COVID 19 නොමග යවන ප්‍රස්ථාර. " 

නැවතත්, මෙය සියුම් වන අතර සම්පූර්ණයෙන්ම පැහැදිලි නැත. තීරු ප්‍රස්ථාරය ෆ්ලොරිඩාවේ ප්‍රාන්තයක් සඳහා කාලයත් සමඟ ධනාත්මක COVID-19 රෝගීන්ගේ ප්‍රතිශතයේ සුමට - පාහේ සුමට - අඩුවීමක් පෙන්නුම් කරයි. නඩු අඩු වන බව ඔබට පහසුවෙන් නිගමනය කළ හැකිය. එය විශිෂ්ටයි, දෘශ්‍යකරණය නිවැරදිව දත්ත නියෝජනය කරයි. ගැටළුව ඇත්තේ දත්තවල ය. ඉතින්, ඔබට එය නොපෙනෙන නිසා එය වඩාත් ද්රෝහී පක්ෂග්රාහී වේ. එය දත්ත තුළට පිළිස්සී ඇත. ඔබ ඇසිය යුතු ප්‍රශ්න, ඇතුළත්, පරීක්‍ෂාවට ලක් කරන්නේ කවුද? වෙනත් වචන වලින් කිවහොත්, හරය යනු කුමක්ද, නැතහොත් අප ප්‍රතිශතයක් දෙස බලන ජනගහනය. උපකල්පනය වන්නේ එය සමස්ත ජනගහනය හෝ අවම වශයෙන් නියෝජිත නියැදියක් බවයි.

කෙසේ වෙතත්, මෙම කාලය තුළ, මෙම ප්‍රාන්තයේ, පරීක්ෂණ ලබා දී ඇත්තේ සීමිත පිරිසකට පමණි. ඔවුන්ට COVID වැනි රෝග ලක්ෂණ තිබිය යුතුය, නැතහොත් මෑතකදී උණුසුම් ස්ථාන ලැයිස්තුවේ රටකට ගොස් ඇත. අතිරේකව ප්‍රතිඵල ව්‍යාකූල වන්නේ සෑම ධනාත්මක පරීක්‍ෂණයක්ම ගණන් කර ඇති අතර සෑම සෘණ පරීක්‍ෂණයක්ම ගණන් කර තිබීමයි. සාමාන්‍යයෙන්, පුද්ගලයෙකු ධනාත්මක බව පරීක්‍ෂා කළ විට, වෛරසය එහි ගමන් මග ක්‍රියාත්මක වූ විට ඔවුන් නැවත පරීක්‍ෂා කර ඍණාත්මක බව පරීක්‍ෂා කරයි. එබැවින්, එක් එක් ධනාත්මක අවස්ථාව සඳහා, එය අවලංගු කරන ඍණාත්මක පරීක්ෂණ නඩුවක් ඇත. පරීක්ෂණවලින් අතිමහත් බහුතරයක් ඍණාත්මක වන අතර එක් එක් පුද්ගලයාගේ ඍණාත්මක පරීක්ෂණ ගණන් කර ඇත. දත්ත පක්ෂග්‍රාහී වන ආකාරය සහ තීරණ ගැනීම සඳහා විශේෂයෙන් ප්‍රයෝජනවත් නොවන ආකාරය ඔබට දැක ගත හැකිය. 

AI ආදානය සහ පුහුණුව පක්ෂග්‍රාහී වේ

AI හට පක්ෂග්‍රාහී ප්‍රතිඵලවලට මඟ පෑදිය හැකි අවම වශයෙන් ක්‍රම දෙකක් තිබේ: පක්ෂග්‍රාහී දත්ත වලින් ආරම්භ කිරීම හෝ වලංගු දත්ත සැකසීමට පක්ෂග්‍රාහී ඇල්ගොරිතම භාවිතා කිරීම.  

පක්ෂග්‍රාහී ආදානය

අපගෙන් බොහෝ දෙනෙකුගේ මතය වී ඇත්තේ AI සංඛ්‍යා තලා දැමීමට, එහි ඇල්ගොරිතම යෙදීමට සහ දත්ත පිළිබඳ විශ්වාසදායක විශ්ලේෂණයක් කිරීමට විශ්වාස කළ හැකි බවයි. කෘත්‍රිම බුද්ධිය බුද්ධිමත් විය හැක්කේ එය පුහුණු කර ඇති තරමට පමණි. එය පුහුණු කරන ලද දත්ත අසම්පූර්ණ නම්, ප්රතිඵල හෝ නිගමන ද විශ්වාස කිරීමට නොහැකි වනු ඇත. ඉහත සමීක්ෂණ පක්ෂග්‍රාහී අවස්ථාවට සමානව, දත්ත විය හැකි ක්‍රම ගණනාවක් තිබේ පක්ෂග්රාහී යන්ත්‍ර ඉගෙනීමේදී:.  

  • නියැදි නැඹුරුව - පුහුණු දත්ත කට්ටලය මුළු ජනගහනයම නියෝජනය නොවේ.
  • බැහැර කිරීමේ නැඹුරුව - සමහර විට පිටස්තරයන් ලෙස පෙනෙන දේ සත්‍ය වශයෙන්ම වලංගු වේ, නැතහොත්, ඇතුළත් කළ යුතු දේ පිළිබඳ රේඛාව අඳින්නේ (සිප් කේත, දින, ආදිය).
  • මිනුම් නැඹුරුව - සම්මුතිය යනු සෑම විටම මෙනිස්කස් මධ්‍යයේ සහ පහළින් මැනීමයි, නිදසුනක් ලෙස, පරිමාමිතික නළවල හෝ පරීක්ෂණ නලවල (රසදිය හැර) ද්‍රව මනින විට.
  • පක්ෂග්‍රාහීව සිහිපත් කරන්න - පර්යේෂණ සහභාගිවන්නන්ගේ මතකය මත රඳා පවතින විට.
  • නිරීක්ෂක පක්ෂග්‍රාහීත්වය - විද්‍යාඥයන්, සියලු මිනිසුන් මෙන්, ඔවුන් දැකීමට අපේක්ෂා කරන දේ දැකීමට වැඩි නැඹුරුවක් දක්වයි.
  • ලිංගික සහ ජාතිවාදී පක්ෂග්‍රාහීත්වය - ලිංගිකත්වය හෝ ජාතිය වැඩිපුර හෝ අඩුවෙන් නියෝජනය විය හැක.  
  • සංගමයේ නැඹුරුව - දත්ත ඒකාකෘති ශක්තිමත් කරයි

AI විශ්වාසනීය ප්‍රතිඵල ලබා දීමට නම්, එහි පුහුණු දත්ත සැබෑ ලෝකය නියෝජනය කිරීම අවශ්‍ය වේ. අපි කලින් බ්ලොග් ලිපියක සාකච්ඡා කර ඇති පරිදි, දත්ත සකස් කිරීම ඉතා වැදගත් වන අතර වෙනත් ඕනෑම දත්ත ව්‍යාපෘතියක් මෙන්. විශ්වාස කළ නොහැකි දත්ත යන්ත්‍ර ඉගෙනුම් පද්ධතිවලට වැරදි පාඩමක් ඉගැන්විය හැකි අතර වැරදි නිගමනයකට තුඩු දෙනු ඇත. එයින් කියැවෙන්නේ, “සියලු දත්ත පක්ෂග්‍රාහී ය. මෙය පරාරෝපණය නොවේ. මෙය සත්‍යයකි.” – ආචාර්ය සංජිව් එම් නාරායන්, Stanford University School of Medicine.

පුහුණුව සඳහා පක්ෂග්‍රාහී දත්ත භාවිතා කිරීම කැපී පෙනෙන AI අසාර්ථක වීම් ගණනාවකට හේතු වී ඇත. (උදාහරණ මෙහි සහ මෙහි, පර්යේෂණ මෙහි..)

පක්ෂග්රාහී ඇල්ගොරිතම

ඇල්ගොරිතමයක් යනු ව්‍යාපාර ගැටලුවකට පිළිතුරු සැපයීම සඳහා ආදානයක් පිළිගෙන ප්‍රතිදානය නිර්මාණය කරන නීති මාලාවකි. ඒවා බොහෝ විට හොඳින් අර්ථ දක්වා ඇති තීරණ ගස් වේ. ඇල්ගොරිතම කළු පෙට්ටි මෙන් දැනේ. ඔවුන් වැඩ කරන්නේ කෙසේදැයි කිසිවෙකුට විශ්වාස නැත, බොහෝ විට, පවා නැත ඒවා භාවිතා කරන සමාගම්. ඔහ්, ඒවා බොහෝ විට හිමිකාරයි. පක්ෂග්‍රාහී ඇල්ගොරිතම මෙතරම් ද්‍රෝහී වීමට එක් හේතුවක් වන්නේ ඒවායේ අද්භූත හා සංකීර්ණ ස්වභාවයයි. . 

ජාතිය සැලකිල්ලට ගන්නා වෛද්‍ය විද්‍යාව, මානව සම්පත් හෝ මූල්‍ය ක්ෂේත්‍රයේ AI ඇල්ගොරිතම සලකා බලන්න. ජාතිය සාධකයක් නම්, ඇල්ගොරිතම වාර්ගික අන්ධ විය නොහැක. මෙය න්‍යායික නොවේ. AI භාවිතා කරමින් සැබෑ ලෝකයේ මෙවැනි ගැටළු සොයාගෙන ඇත කුලියට, සවාරි-බෙදාගැනීම, ණය අයදුම්පතවැලි වකුගඩු බද්ධ කිරීම

අවසාන කරුණ නම්, ඔබේ දත්ත හෝ ඇල්ගොරිතම නරක නම්, නිෂ්ඵල දේට වඩා නරක නම්, ඒවා භයානක විය හැකිය. එවැනි දෙයක් තිබේ "ඇල්ගොරිතම විගණනය.” ඉලක්කය වන්නේ සාධාරණත්වය, පක්ෂග්‍රාහීත්වය සහ වෙනස් කොට සැලකීම සම්බන්ධ ඇල්ගොරිතමයට සම්බන්ධ විය හැකි අවදානම් හඳුනා ගැනීමට ආයතනවලට උපකාර කිරීමයි. වෙනත් තැනක, ෆේස්බුක් AI හි පක්ෂග්‍රාහීත්වයට එරෙහිව සටන් කිරීමට AI භාවිතා කරයි.

මිනිස්සු පක්ෂග්‍රාහීයි

සමීකරණයේ දෙපැත්තේම අපිට මිනිස්සු ඉන්නවා. මිනිසුන් විශ්ලේෂණය සූදානම් කරමින් සිටින අතර මිනිසුන්ට තොරතුරු ලැබේ. පර්යේෂකයෝ ඉන්නවා පාඨකයෝ ඉන්නවා. ඕනෑම සන්නිවේදනයකදී, සම්ප්රේෂණය හෝ පිළිගැනීමේ ගැටළු ඇති විය හැක.

උදාහරණයක් ලෙස කාලගුණය ගන්න. "වැසි ඇති වීමේ අවස්ථාවක්" යන්නෙන් අදහස් කරන්නේ කුමක්ද? පළමුව, කාලගුණ විද්‍යාඥයින් වැසි ඇති වීමට ඉඩ ඇති බව පවසන විට අදහස් කරන්නේ කුමක්ද? එක්සත් ජනපද රජයට අනුව ජාතික කාලගුණ සේවා, වර්ෂාපතන අවස්ථාවක්, හෝ ඔවුන් හඳුන්වන්නේ වර්ෂාපතනයේ සම්භාවිතාව (PoP) යනු කාලගුණ අනාවැකියක ඇති අඩුවෙන් අවබෝධ කරගත් මූලද්‍රව්‍යවලින් එකකි. එයට සම්මත නිර්වචනයක් ඇත: “වර්ෂාපතනයේ සම්භාවිතාව යනු නිශ්චිත කාල සීමාව තුළ දී ඇති පුරෝකථන ප්‍රදේශයේ දී ඇති ප්‍රදේශයක වර්ෂාපතනයේ [sic] වැඩි වර්ෂාපතනයේ 0.01″ [sic] සංඛ්‍යානමය සම්භාවිතාවකි.” "දී ඇති ප්රදේශය" යනු අනාවැකි ප්රදේශය, හෝ broadවාත්තු ප්රදේශය. එනම් වර්ෂාපතනයේ නිල සම්භාවිතාව රඳා පවතින්නේ එම ප්‍රදේශයේ කොතැනක හෝ වැස්සක් වැටෙනු ඇති බවට ඇති විශ්වාසය සහ තෙත්වන ප්‍රදේශයේ ප්‍රතිශතය මතය. වෙනත් වචන වලින් කිවහොත්, කාලගුණ විද්‍යාඥයා අනාවැකි ප්‍රදේශයේ (විශ්වාසය = 100%) වැසි ඇති බව විශ්වාස කරයි නම්, PoP නියෝජනය කරන්නේ වර්ෂාව ලැබෙන ප්‍රදේශයේ කොටසයි.  

පැරිස් වීදිය; වැසිබර දවසක්,Gustave Caillebotte (1848-1894) Chicago Art Institute Public Domain

වර්ෂාපතනයේ අවස්ථාව විශ්වාසය සහ ප්රදේශය යන දෙකම මත රඳා පවතී. ඒක මම දැනගෙන හිටියේ නැහැ. අනෙක් අය එය නොදන්නවා යැයි මම සැක කරමි. ජනගහනයෙන් 75% ක් පමණ PoP ගණනය කරන්නේ කෙසේද යන්න හෝ එය නියෝජනය කිරීමට අදහස් කරන්නේ කුමක්ද යන්න නිවැරදිව වටහාගෙන නොමැත. ඉතින්, අපි රැවටෙනවාද, නැත්නම්, මෙය සංජානනයේ ගැටලුවක්ද? අපි ඒකට වර්ෂාපතන සංජානනය කියමු. අපි කාලගුණ අනාවැකිකරුට දොස් කියනවාද? සාධාරණ වීමට, සමහරක් ඇත ව්යාකූලත්වය කාලගුණ අනාවැකිකරුවන් අතර ද. එකක මිනුම්, සමීක්‍ෂණයට ලක් වූ කාලගුණ විද්‍යාඥයින්ගෙන් 43% ක් කියා සිටියේ PoP හි නිර්වචනයේ ඉතා අඩු අනුකූලතාවයක් ඇති බවයි.

විශ්ලේෂණය ම පක්ෂග්රාහී ය

බලපාන සාධක පහෙන්, විශ්ලේෂණයම වඩාත්ම පුදුම සහගත විය හැකිය. විද්‍යාත්මක පර්යේෂණවල ප්‍රතිඵලයක් ලෙස සමාලෝචනය කරන ලද පත්‍රිකාවක් ප්‍රකාශයට පත් කෙරේ, සාමාන්‍යයෙන් න්‍යායක් උපකල්පනය කෙරේ, උපකල්පනය පරීක්ෂා කිරීමට ක්‍රම නිර්වචනය කරනු ලැබේ, දත්ත රැස්කර පසුව දත්ත විශ්ලේෂණය කෙරේ. සිදු කරන විශ්ලේෂණ වර්ගය සහ එය සිදු කරන ආකාරය නිගමනවලට බලපාන ආකාරය අවතක්සේරු කර ඇත. තුළ කඩදාසි මෙම වසරේ මුලදී (ජනවාරි 2022) ප්‍රකාශයට පත් කරන ලද, පිළිකා පිළිබඳ ජාත්‍යන්තර සඟරාවේ, සසම්භාවී පාලිත අත්හදා බැලීම් සහ ප්‍රතිගාමී නිරීක්ෂණ අධ්‍යයනයන්හි ප්‍රතිඵල දැයි කතුවරුන් විසින් ඇගයීමට ලක් කරන ලදී. ඔවුන්ගේ සොයාගැනීම් නිගමනය කළේ,

සංසන්දනාත්මක ඵලදායිතා පර්යේෂණවල විවිධ විශ්ලේෂණ තේරීම් මගින් අපි ප්‍රතිවිරුද්ධ ප්‍රතිඵල ජනනය කළෙමු. අපගේ ප්‍රතිඵල යෝජනා කරන්නේ සමහර ප්‍රතිගාමී නිරීක්ෂණ අධ්‍යයනයන් මගින් ප්‍රතිකාරයක් රෝගීන් සඳහා ප්‍රතිඵල වැඩි දියුණු කරන බව සොයා ගත හැකි අතර තවත් සමාන අධ්‍යයනයකින් එය හුදෙක් විශ්ලේෂණාත්මක තේරීම් මත පදනම්ව සිදු නොවන බව සොයා ගත හැකි බවයි.

අතීතයේ විද්‍යාත්මක සඟරා ලිපියක් කියවන විට, ඔබ මා වැනි නම්, ප්‍රතිඵල හෝ නිගමන සියල්ල දත්ත මත බව ඔබට සිතෙන්නට ඇත. දැන්, ප්‍රතිඵල, හෝ මූලික කල්පිතය තහවුරු කිරීම හෝ ප්‍රතික්ෂේප කිරීම ද විශ්ලේෂණ ක්‍රමය මත රඳා පවතින බව පෙනේ.

තවත් අධ්යයනය සමාන ප්රතිඵල සොයා ගන්නා ලදී. ලිපිය, බොහෝ විශ්ලේෂකයින්, එක් දත්ත කට්ටලයක්: විශ්ලේෂණ තේරීම්වල වෙනස්කම් ප්‍රතිඵලවලට බලපාන ආකාරය විනිවිදභාවයක් ඇති කිරීම, ඔවුන් විශ්ලේෂණය කිරීමට විවිධ කණ්ඩායම් 29 කට එකම දත්ත කට්ටලයක් ලබා දුන් ආකාරය විස්තර කරයි. දත්ත විශ්ලේෂණය බොහෝ විට තනි නිගමනයකට තුඩු දෙන දැඩි, හොඳින් අර්ථ දක්වා ඇති ක්‍රියාවලියක් ලෙස සැලකේ.  

ක්‍රමවේදය විද්‍යාඥයින්ගේ ප්‍රකාශයන් නොතකා, න්‍යාය, උපකල්පන සහ තේරීම් ලක්ෂ්‍යයන්ගෙන් සමන්විත වූ තෝරාගත් විශ්ලේෂණ උපාය මාර්ගය මත ප්‍රතිඵල රඳා පවතින බව නොසලකා හැරීම පහසුය. බොහෝ අවස්ථා වලදී, පර්යේෂණ ප්‍රශ්නයකට අදාළ දත්ත ඇගයීම සඳහා බොහෝ සාධාරණ (සහ බොහෝ අසාධාරණ) ප්‍රවේශයන් තිබේ.

පර්යේෂකයන් දත්ත විශ්ලේෂණය සමූහ-මූලාශ්‍ර කරගත් අතර අධ්‍යයනයේ අවසාන ප්‍රතිඵලයට බලපෑ හැකි - කුමන ආකාරයේ විශ්ලේෂණයක් භාවිතා කළ යුතුද යන්න ඇතුළුව - සියලු පර්යේෂණවලට ආත්මීය තීරණ ඇතුළත් බව නිගමනය විය.

තවත් කෙනෙකුගේ නිර්දේශය පර්යේෂකයෙකි ඉහත අධ්‍යයනය විශ්ලේෂණය කළ අය තීරණ ගැනීමේදී හෝ නිගමනවලට එළඹීමේදී තනි පත්‍රිකාවක් භාවිත කිරීමේදී ප්‍රවේශම් විය යුතුය.

විශ්ලේෂණවල පක්ෂග්‍රාහීත්වය ආමන්ත්‍රණය කිරීම

මෙය හුදෙක් අනතුරු ඇඟවීමේ කතාවකි. දැනුමට පුළුවන් අපිව වංචාවලට හසු නොවී ආරක්ෂා කරන්න. ස්කෑනර් යන්ත්‍රයක් අපව රවටා ගැනීමට භාවිතා කළ හැකි ක්‍රම පිළිබඳව වැඩි අවබෝධයක් ඇති තරමට, පික්පොකට් කාරයෙකුගේ වැරදි මඟ පෙන්වීමක් හෝ පොන්සි නාට්‍යයක සුමට කතාවකට අපව හසු කර ගැනීමට ඇති ඉඩකඩ අඩුය. එබැවින් අපගේ විශ්ලේෂණවලට බලපාන විභව පක්ෂග්‍රාහී බව අවබෝධ කර ගැනීම සහ හඳුනා ගැනීමයි. විභව බලපෑම් පිළිබඳව අප දැනුවත් නම්, කතාව වඩාත් හොඳින් ඉදිරිපත් කිරීමටත් අවසානයේ වඩා හොඳ තීරණ ගැනීමටත් අපට හැකි වනු ඇත.  

BI/AnalyticsUncategorized
Microsoft Excel #1 විශ්ලේෂණ මෙවලම වන්නේ ඇයි?
එක්සෙල් #1 විශ්ලේෂණ මෙවලම වන්නේ ඇයි?

එක්සෙල් #1 විශ්ලේෂණ මෙවලම වන්නේ ඇයි?

  එය ලාභ සහ පහසුයි. Microsoft Excel පැතුරුම්පත් මෘදුකාංගය ව්‍යාපාරික පරිශීලකයාගේ පරිගණකයේ දැනටමත් ස්ථාපනය කර ඇත. අද බොහෝ පරිශීලකයින් උසස් පාසලේ සිට හෝ ඊට පෙර Microsoft Office මෘදුකාංගයට නිරාවරණය වී ඇත. මේ දණහිස් ප්‍රතිචාරය...

වැඩිදුර කියවන්න

BI/AnalyticsUncategorized
Unclutter Your Insights: Analytics Spring Cleaning සඳහා මාර්ගෝපදේශයක්

Unclutter Your Insights: Analytics Spring Cleaning සඳහා මාර්ගෝපදේශයක්

Unclutter Your Insights A Guide to Analytics Spring Cleaning නව වසර ආරම්භ වන්නේ ඝෝෂාවකින්; වසර අවසාන වාර්තා නිර්මාණය කර පරීක්ෂා කරනු ලැබේ, පසුව සෑම කෙනෙකුම ස්ථාවර වැඩ කාලසටහනකට පදිංචි වේ. දින වැඩි වන විට ගස් හා මල් පිපෙන, ...

වැඩිදුර කියවන්න

BI/AnalyticsUncategorized
NY ස්ටයිල් එදිරිව චිකාගෝ ස්ටයිල් පීසා: රසවත් විවාදයක්

NY ස්ටයිල් එදිරිව චිකාගෝ ස්ටයිල් පීසා: රසවත් විවාදයක්

අපගේ ආශාවන් තෘප්තිමත් කරන විට, උණුසුම් පීසා පෙත්තක ප්‍රීතියට ප්‍රතිවිරුද්ධ විය හැක්කේ දේවල් කිහිපයක් පමණි. නිව් යෝර්ක් විලාසිතාවේ සහ චිකාගෝ විලාසිතාවේ පීසා අතර විවාදය දශක ගණනාවක් තිස්සේ උද්යෝගිමත් සාකච්ඡා අවුලුවා ඇත. සෑම විලාසිතාවකටම ආවේණික ලක්ෂණ සහ කැපවූ රසිකයින් ඇත.

වැඩිදුර කියවන්න

BI/Analyticsකොග්නොස් විශ්ලේෂණ
Cognos Query Studio
ඔබේ පරිශීලකයින්ට ඔවුන්ගේ විමසුම් චිත්‍රාගාරය අවශ්‍යයි

ඔබේ පරිශීලකයින්ට ඔවුන්ගේ විමසුම් චිත්‍රාගාරය අවශ්‍යයි

IBM Cognos Analytics 12 නිකුත් කිරීමත් සමඟ, Query Studio සහ Analysis Studio හි දීර්ඝ කාලයක් තිස්සේ ප්‍රකාශයට පත් කරන ලද අවලංගු කිරීම අවසානයේ එම චිත්‍රාගාර අඩු කර Cognos Analytics අනුවාදයක් ලබා දෙන ලදී. මෙය බොහෝ දෙනෙකුට පුදුම විය යුතු නැතත් ...

වැඩිදුර කියවන්න

BI/AnalyticsUncategorized
Taylor Swift Effect ඇත්තද?

Taylor Swift Effect ඇත්තද?

සමහර විචාරකයින් යෝජනා කරන්නේ ඇය සුපර් බෝල් ටිකට් මිල ඉහළ නංවන බවයි. සමහර විට පසුගිය වසරේ වාර්තා තැබූ සංඛ්‍යාවට වඩා වැඩි විය හැකි අතර සමහර විට 3 සඳට වඩා වැඩි...

වැඩිදුර කියවන්න

BI/Analytics
විශ්ලේෂණ නාමාවලි - විශ්ලේෂණ පරිසර පද්ධතියේ නැගී එන තරුවක්

විශ්ලේෂණ නාමාවලි - විශ්ලේෂණ පරිසර පද්ධතියේ නැගී එන තරුවක්

ප්‍රධාන තාක්ෂණ නිලධාරියෙකු (CTO) ලෙස හැඳින්වීම, අප විශ්ලේෂණ වෙත ප්‍රවේශ වන ආකාරය වෙනස් කරන නැගී එන තාක්ෂණයන් පිළිබඳව මම සැමවිටම විමසිල්ලෙන් සිටිමි. පසුගිය වසර කිහිපය තුළ මගේ අවධානයට ලක් වූ සහ අතිමහත් පොරොන්දුවක් ඇති එවැනි එක් තාක්ෂණයක් වන්නේ විශ්ලේෂණ...

වැඩිදුර කියවන්න