അനലിറ്റിക്സ് നുണ

by ഓഗസ്റ്റ് 29, 29BI/Analytics0 അഭിപ്രായങ്ങൾ

അനലിറ്റിക്സ് നുണ

വിശകലനത്തിന്റെ പക്ഷപാതം

 

മാർക്ക് ട്വെയ്ൻ വിവാദപരമായി ഇങ്ങനെ പറഞ്ഞു: “മൂന്ന് തരത്തിലുള്ള നുണകളുണ്ട്: നുണകൾ, നശിച്ച നുണകൾ, അനലിറ്റിക്സ്. " 

അനലിറ്റിക്‌സ് ഞങ്ങൾക്ക് ഉപയോഗപ്രദവും പ്രവർത്തനക്ഷമവുമായ ഉൾക്കാഴ്ചകൾ നൽകുന്നു എന്നത് ഞങ്ങൾ നിസ്സാരമായി കാണുന്നു. ഏറ്റവും സങ്കീർണ്ണമായ സോഫ്‌റ്റ്‌വെയറുകളും സിസ്റ്റങ്ങളും പോലും നമ്മൾ നൽകുന്ന ഉത്തരങ്ങളെ നമ്മുടെ സ്വന്തം പക്ഷപാതവും മറ്റുള്ളവരുടെ പക്ഷപാതിത്വവും എങ്ങനെ സ്വാധീനിക്കുന്നു എന്നതാണ് നമ്മൾ പലപ്പോഴും മനസ്സിലാക്കാത്തത്. ചിലപ്പോൾ, നമ്മൾ സത്യസന്ധതയില്ലാതെ കൈകാര്യം ചെയ്യപ്പെടാം, പക്ഷേ, സാധാരണഗതിയിൽ, അത് നമ്മുടെ വിശകലനത്തിലേക്ക് കടന്നുവരുന്ന സൂക്ഷ്മവും അബോധാവസ്ഥയിലുള്ളതുമായ പക്ഷപാതങ്ങളായിരിക്കാം. പക്ഷപാതപരമായ അനലിറ്റിക്‌സിന് പിന്നിലെ പ്രചോദനം പലതാണ്. ചില സമയങ്ങളിൽ ശാസ്ത്രത്തിൽ നിന്ന് നാം പ്രതീക്ഷിക്കുന്ന നിഷ്പക്ഷ ഫലങ്ങളെ സ്വാധീനിക്കുന്നത് 1) ഡാറ്റ എങ്ങനെ അവതരിപ്പിക്കുന്നു എന്നതിലെ സൂക്ഷ്മമായ തിരഞ്ഞെടുപ്പുകൾ, 2) പൊരുത്തമില്ലാത്തതോ അല്ലാത്തതോ ആയ ഡാറ്റ, 3) AI സംവിധാനങ്ങൾ എങ്ങനെ പരിശീലിപ്പിക്കപ്പെടുന്നു, 4) ഗവേഷകരുടെയോ മറ്റുള്ളവരുടെയോ അജ്ഞത, കഴിവില്ലായ്മ കഥ പറയാൻ, 5) വിശകലനം തന്നെ.    

അവതരണം പക്ഷപാതപരമാണ്

ചില നുണകൾ മറ്റുള്ളവരെക്കാൾ എളുപ്പം കണ്ടുപിടിക്കാൻ കഴിയും. എന്താണ് തിരയേണ്ടതെന്ന് നിങ്ങൾക്കറിയാമെങ്കിൽ, നിങ്ങൾക്ക് കൂടുതൽ എളുപ്പത്തിൽ സാധ്യത കണ്ടെത്താനാകും തെറ്റിദ്ധരിപ്പിക്കുന്ന ഗ്രാഫുകളും ചാർട്ടുകളും. 

കുറഞ്ഞത് ഉണ്ട് ഡാറ്റ തെറ്റിദ്ധരിപ്പിക്കുന്ന രീതിയിൽ പ്രദർശിപ്പിക്കുന്നതിനുള്ള അഞ്ച് വഴികൾ: 1) പരിമിതമായ ഒരു ഡാറ്റാ സെറ്റ് കാണിക്കുക, 2). ബന്ധമില്ലാത്ത പരസ്പര ബന്ധങ്ങൾ കാണിക്കുക, 3) ഡാറ്റ തെറ്റായി കാണിക്കുക, 4) പാരമ്പര്യേതരമായി ഡാറ്റ കാണിക്കുക, അല്ലെങ്കിൽ 5). വളരെ ലളിതമാക്കിയ ഡാറ്റ കാണിക്കുക.

പരിമിതമായ ഡാറ്റാ സെറ്റ് കാണിക്കുക

ഡാറ്റ പരിമിതപ്പെടുത്തുകയോ ഡാറ്റയുടെ ക്രമരഹിതമായ ഒരു വിഭാഗം തിരഞ്ഞെടുക്കുകയോ ചെയ്യുന്നത് വലിയ ചിത്രവുമായി പൊരുത്തപ്പെടാത്ത ഒരു കഥ പലപ്പോഴും പറയാൻ കഴിയും. ഒരു വലിയ ഗ്രൂപ്പിനെ പ്രതിനിധീകരിക്കാൻ അനലിസ്റ്റ് നോൺ-പ്രെസന്റേറ്റീവ് സാമ്പിൾ ഉപയോഗിക്കുമ്പോഴാണ് മോശം സാമ്പിൾ അല്ലെങ്കിൽ ചെറി പിക്കിംഗ്. 

മാർച്ചിൽ 2020, ജോർജിയയിലെ പൊതുജനാരോഗ്യ വകുപ്പ് പ്രതിദിന സ്റ്റാറ്റസ് റിപ്പോർട്ടിന്റെ ഭാഗമായി ഈ ചാർട്ട് പ്രസിദ്ധീകരിച്ചു. ഇത് യഥാർത്ഥത്തിൽ ഉത്തരം നൽകുന്നതിനേക്കാൾ കൂടുതൽ ചോദ്യങ്ങൾ ഉയർത്തുന്നു.  

കാണാതെ പോകുന്ന ഒന്നാണ് സന്ദർഭം. ഉദാഹരണത്തിന്, ഓരോ പ്രായക്കാർക്കും ജനസംഖ്യയുടെ ശതമാനം എത്രയാണെന്ന് അറിയുന്നത് സഹായകമാകും. ലളിതമായി കാണപ്പെടുന്ന പൈ ചാർട്ടിന്റെ മറ്റൊരു പ്രശ്നം അസമമായ പ്രായ വിഭാഗങ്ങളാണ്. 0-17 ന് 18 വർഷമുണ്ട്, 18-59 ന് 42, 60+ ഓപ്പൺ എൻഡ്, എന്നാൽ ഏകദേശം 40 വർഷമുണ്ട്. ഈ ചാർട്ട് മാത്രം നൽകിയിട്ടുള്ള നിഗമനം, ഭൂരിഭാഗം കേസുകളും 18-59 വയസ് പ്രായമുള്ളവരാണെന്നാണ്. 60 വയസ്സിനു മുകളിൽ പ്രായമുള്ളവരെ കോവിഡ് കേസുകൾ സാരമായി ബാധിക്കുന്നില്ല. എന്നാൽ ഇത് മുഴുവൻ കഥയല്ല.

താരതമ്യത്തിനായി, ഈ വ്യത്യസ്ത ഡാറ്റ സെറ്റ് CDC വെബ് സൈറ്റ് ഓരോ പ്രായപരിധിയിലുമുള്ള യുഎസ് ജനസംഖ്യയുടെ ശതമാനത്തെക്കുറിച്ചുള്ള അധിക ഡാറ്റ സഹിതം പ്രായപരിധി അനുസരിച്ച് COVID കേസുകൾ ചാർട്ട് ചെയ്യുന്നു.  

ഇതാണ് നല്ലത്. ഞങ്ങൾക്ക് കൂടുതൽ സന്ദർഭമുണ്ട്. 18-29, 30-39, 40-49 എന്നീ പ്രായക്കാർക്കെല്ലാം ജനസംഖ്യയിലെ പ്രായ വിഭാഗത്തിന്റെ ശതമാനത്തേക്കാൾ ഉയർന്ന ശതമാനം കേസുകൾ ഉണ്ടെന്ന് നമുക്ക് കാണാൻ കഴിയും. ഇപ്പോഴും ചില അസമമായ പ്രായ വിഭാഗങ്ങളുണ്ട്. എന്തുകൊണ്ട് 16-17 ഒരു പ്രത്യേക പ്രായ വിഭാഗമാണ്? ഇപ്പോഴും ഇത് മുഴുവൻ കഥയല്ല, എന്നാൽ പണ്ഡിതന്മാർ കോളങ്ങൾ എഴുതുകയും പ്രവചനങ്ങൾ നടത്തുകയും നിർദ്ദേശങ്ങൾ നൽകുകയും ചെയ്തിട്ടുണ്ട്. വ്യക്തമായും, COVID-നൊപ്പം, പ്രായത്തിന് പുറമേ, പോസിറ്റീവ് കേസായി കണക്കാക്കുന്നതിനെ ബാധിക്കുന്ന നിരവധി വേരിയബിളുകൾ ഉണ്ട്: വാക്സിനേഷൻ നില, പരിശോധനകളുടെ ലഭ്യത, എത്ര തവണ പരിശോധിച്ചു, രോഗാവസ്ഥകൾ, കൂടാതെ മറ്റു പലതും. കേസുകളുടെ എണ്ണം തന്നെ ഒരു അപൂർണ്ണമായ ചിത്രം നൽകുന്നു. ഓരോ പ്രായക്കാരെയും COVID എങ്ങനെ ബാധിക്കുന്നു എന്നറിയാൻ മിക്ക വിദഗ്ധരും മരണങ്ങളുടെ എണ്ണം, അല്ലെങ്കിൽ 100,000 ജനസംഖ്യയിലെ മരണങ്ങളുടെ ശതമാനം അല്ലെങ്കിൽ കേസ്-മരണങ്ങൾ എന്നിവയും നോക്കുന്നു.

ബന്ധമില്ലാത്ത പരസ്പര ബന്ധങ്ങൾ കാണിക്കുക

വ്യക്തമായും, ഒരു ഉണ്ട് ശക്തമായ പരസ്പരബന്ധം ശാസ്ത്രം, ബഹിരാകാശം, സാങ്കേതികവിദ്യ എന്നിവയ്‌ക്ക് വേണ്ടിയുള്ള യുഎസ് ചെലവുകൾക്കും തൂങ്ങിയും കഴുത്ത് ഞെരിച്ചും ശ്വാസം മുട്ടിച്ചും ആത്മഹത്യ ചെയ്യുന്നവരുടെ എണ്ണത്തിനും ഇടയിൽ. പരസ്പരബന്ധം 99.79% ആണ്, ഏതാണ്ട് തികഞ്ഞ പൊരുത്തം.  

എന്നിരുന്നാലും, ഇവ ഏതെങ്കിലും തരത്തിൽ ബന്ധപ്പെട്ടിരിക്കുന്നു, അല്ലെങ്കിൽ ഒന്ന് മറ്റൊന്നിന് കാരണമാകുന്നു എന്ന് ആരാണ് ന്യായീകരിക്കുക? തീവ്രമല്ലാത്ത മറ്റ് ഉദാഹരണങ്ങളുണ്ട്, പക്ഷേ വ്യാജമല്ല. വിന്നിംഗ് വേഡ് ഓഫ് സ്‌ക്രിപ്‌സ് നാഷണൽ സ്‌പെല്ലിംഗ് ബീയിലെ ലെറ്റേഴ്‌സും വിഷം നിറഞ്ഞ ചിലന്തികളാൽ കൊല്ലപ്പെട്ട ആളുകളുടെ എണ്ണവും തമ്മിൽ സമാനമായ ശക്തമായ ബന്ധമുണ്ട്. യാദൃശ്ചികമാണോ? നിങ്ങൾ തീരുമാനിക്കൂ.

ഈ ഡാറ്റ ചാർട്ട് ചെയ്യാനുള്ള മറ്റൊരു മാർഗ്ഗം, Y-അക്ഷങ്ങൾ രണ്ടിലും പൂജ്യം ഉൾപ്പെടുത്തുക എന്നതാണ്.

ഡാറ്റ തെറ്റായി കാണിക്കുക

മുതൽ ഡാറ്റ മോശമായി എങ്ങനെ പ്രദർശിപ്പിക്കാം, ഏറ്റവും കൂടുതൽ സ്ഥിരീകരിച്ച COVID-5 കേസുകൾ ഉള്ള മികച്ച 19 കൗണ്ടികളെ യു.എസ് സംസ്ഥാനമായ ജോർജിയ അവതരിപ്പിച്ചു.

നിയമാനുസൃതമായി തോന്നുന്നു, അല്ലേ? സ്ഥിരീകരിച്ച COVID-19 കേസുകളുടെ താഴോട്ട് പ്രവണതയുണ്ട്. നിങ്ങൾക്ക് എക്സ്-ആക്സിസ് വായിക്കാൻ കഴിയുമോ? X-അക്ഷം സമയത്തെ പ്രതിനിധീകരിക്കുന്നു. സാധാരണഗതിയിൽ, തീയതികൾ ഇടത്തുനിന്ന് വലത്തോട്ട് വർദ്ധിക്കും. ഇവിടെ, X-അക്ഷത്തിൽ ഒരു ചെറിയ സമയ യാത്ര ഞങ്ങൾ കാണുന്നു: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 പങ്ക് € |

കാത്തിരിക്കണോ? എന്ത്? X-അക്ഷം കാലക്രമത്തിൽ അടുക്കിയിട്ടില്ല. അതിനാൽ, പ്രവണത കാണാൻ കഴിയുന്നത്ര മനോഹരമാണ്, ഞങ്ങൾക്ക് നിഗമനങ്ങളിൽ എത്തിച്ചേരാനാകില്ല. തീയതികൾ ഓർഡർ ചെയ്യുകയാണെങ്കിൽ, കേസുകളുടെ എണ്ണത്തിനായുള്ള ബാറുകൾ ഏതെങ്കിലും തരത്തിലുള്ള പ്രവണതയെക്കാളും ഒരു സോടൂത്ത് പാറ്റേൺ കാണിക്കുന്നു.

ഒരു കലണ്ടർ ചെയ്യുന്ന രീതിയിൽ തീയതികൾ അടുക്കുക എന്നതാണ് ഇവിടെ എളുപ്പമുള്ള പരിഹാരം.

പാരമ്പര്യേതരമായി ഡാറ്റ കാണിക്കുക

ഞങ്ങൾ എല്ലാവരും തിരക്കിലാണ്. നമ്മുടെ ലോകത്ത് സ്ഥിരത പുലർത്തുന്ന അനുമാനങ്ങളെ അടിസ്ഥാനമാക്കി പെട്ടെന്നുള്ള വിലയിരുത്തലുകൾ നടത്താൻ നമ്മുടെ മസ്തിഷ്കം നമ്മെ പഠിപ്പിച്ചു. ഉദാഹരണത്തിന്, ഞാൻ ഇതുവരെ കണ്ടിട്ടുള്ള എല്ലാ ഗ്രാഫുകളും പൂജ്യത്തിലോ ഏറ്റവും കുറഞ്ഞ മൂല്യങ്ങളിലോ മീറ്റിംഗ് x- യും y- അക്ഷങ്ങളും കാണിക്കുന്നു. ഈ ചാർട്ട് ഹ്രസ്വമായി നോക്കുമ്പോൾ, ഫ്ലോറിഡയുടെ ഫലത്തെക്കുറിച്ച് നിങ്ങൾക്ക് എന്ത് നിഗമനങ്ങളിൽ എത്തിച്ചേരാനാകും “നിങ്ങളുടെ അടിസ്ഥാന നിയമം നിലനിൽക്കൂ.”? ഇത് സമ്മതിക്കാൻ എനിക്ക് ലജ്ജ തോന്നുന്നു, പക്ഷേ ഈ ഗ്രാഫ് എന്നെ ആദ്യം കബളിപ്പിച്ചു. ഗ്രാഫിക്കിന്റെ നടുവിലുള്ള വാചകത്തിലേക്കും അമ്പിലേക്കും നിങ്ങളുടെ കണ്ണ് സൗകര്യപ്രദമായി ആകർഷിക്കപ്പെടുന്നു. ഈ ഗ്രാഫിൽ താഴേക്ക് മുകളിലാണ്. ഇത് ഒരു നുണയായിരിക്കില്ല - ഡാറ്റ എല്ലാം ശരിയാണ്. പക്ഷേ, അത് കബളിപ്പിക്കാൻ വേണ്ടിയാണെന്ന് ഞാൻ കരുതണം. നിങ്ങൾ ഇതുവരെ കണ്ടിട്ടില്ലെങ്കിൽ, y-അക്ഷത്തിൽ പൂജ്യം മുകളിലാണ്. അതിനാൽ, ഡാറ്റ കുറയുമ്പോൾ, അതിനർത്ഥം കൂടുതൽ മരണങ്ങൾ എന്നാണ്. തോക്ക് ഉപയോഗിച്ചുള്ള കൊലപാതകങ്ങളുടെ എണ്ണം ഈ ചാർട്ട് കാണിക്കുന്നു വർദ്ധിച്ചു 2005 ന് ശേഷം, പോകുന്ന പ്രവണത സൂചിപ്പിക്കുന്നത് താഴേക്ക്.

കൂടുതൽ ലളിതമാക്കിയ ഡാറ്റ കാണിക്കുക

വിശകലന വിദഗ്ധർ സിംസന്റെ വിരോധാഭാസം പ്രയോജനപ്പെടുത്തുമ്പോൾ ഡാറ്റയുടെ അമിത ലളിതവൽക്കരണത്തിന്റെ ഒരു ഉദാഹരണം കാണാൻ കഴിയും. സമാഹരിച്ച ഡാറ്റ ഉപസെറ്റുകളായി വേർതിരിക്കുമ്പോൾ വ്യത്യസ്തമായ ഒരു നിഗമനം പ്രകടമാക്കുമ്പോൾ സംഭവിക്കുന്ന ഒരു പ്രതിഭാസമാണിത്. ഉയർന്ന തലത്തിലുള്ള സമാഹരിച്ച ശതമാനം നോക്കുമ്പോൾ ഈ കെണിയിൽ വീഴാൻ എളുപ്പമാണ്. ജോലിസ്ഥലത്ത് സിംപ്‌സന്റെ വിരോധാഭാസത്തിന്റെ ഏറ്റവും വ്യക്തമായ ചിത്രീകരണങ്ങളിലൊന്ന് ബന്ധപ്പെട്ടതാണ് ബാറ്റിംഗ് ശരാശരി.  

1995, 1996 സീസണുകളിലെ ഡേവിഡ് ജസ്റ്റിസിനേക്കാൾ ഉയർന്ന മൊത്തത്തിലുള്ള ബാറ്റിംഗ് ശരാശരിയാണ് ഡെറക് ജെറ്ററിന്റേത്. ആ രണ്ട് വർഷങ്ങളിലും ബാറ്റിംഗ് ശരാശരിയിൽ ജസ്റ്റിസ് ജെറ്ററിനെ മികച്ചതാക്കി എന്ന് തിരിച്ചറിയുമ്പോഴാണ് വിരോധാഭാസം വരുന്നത്. നിങ്ങൾ സൂക്ഷിച്ചുനോക്കിയാൽ, 4-ൽ 1996-ൽ .007 താഴ്ന്ന ശരാശരിയിൽ ജെറ്ററിന് ഏകദേശം 1996 മടങ്ങ് കൂടുതൽ അറ്റ്-ബാറ്റുകൾ (ഡിനോമിനേറ്റർ) ഉണ്ടായിരുന്നുവെന്ന് നിങ്ങൾ മനസ്സിലാക്കുമ്പോൾ അത് അർത്ഥവത്താണ്. 10-ൽ 003 ഉയർന്ന ശരാശരി.

അവതരണം നേരിട്ട് കാണപ്പെടുന്നു, എന്നാൽ സിംപ്‌സണിന്റെ വിരോധാഭാസം, ബുദ്ധിപൂർവ്വം അല്ലെങ്കിൽ അറിയാതെ, തെറ്റായ നിഗമനങ്ങളിലേക്ക് നയിച്ചു. അടുത്തിടെ, വാക്‌സിനുകളും കോവിഡ് മരണനിരക്കും സംബന്ധിച്ച വാർത്തകളിലും സോഷ്യൽ മീഡിയയിലും സിംപ്‌സന്റെ വിരോധാഭാസത്തിന്റെ ഉദാഹരണങ്ങളുണ്ട്. ഒന്ന് ചാർട്ട് 10-59 വയസ് പ്രായമുള്ള ആളുകൾക്ക് വാക്സിനേഷൻ എടുത്തതും വാക്സിൻ ചെയ്യാത്തതും തമ്മിലുള്ള മരണനിരക്ക് താരതമ്യം ചെയ്യുന്ന ഒരു ലൈൻ ഗ്രാഫ് കാണിക്കുന്നു. വാക്സിനേഷൻ എടുക്കാത്തവർക്ക് സ്ഥിരമായി മരണനിരക്ക് കുറവാണെന്ന് ചാർട്ട് തെളിയിക്കുന്നു. എന്താണ് ഇവിടെ നടക്കുന്നത്?  

ബാറ്റിംഗ് ശരാശരിയിൽ നമ്മൾ കാണുന്ന പ്രശ്‌നത്തിന് സമാനമാണ്. ഈ കേസിലെ ഡിനോമിനേറ്റർ ഓരോ പ്രായ വിഭാഗത്തിലെയും വ്യക്തികളുടെ എണ്ണമാണ്. വ്യത്യസ്ത ഫലങ്ങളുള്ള ഗ്രൂപ്പുകളെ ഗ്രാഫ് സംയോജിപ്പിക്കുന്നു. 50-59 വയസ്സ് പ്രായമുള്ളവരെ വെവ്വേറെ നോക്കിയാൽ, വാക്സിനേഷൻ കൂടുതൽ മികച്ചതാണെന്ന് നമുക്ക് കാണാം. അതുപോലെ, നമ്മൾ 10-49 നോക്കുകയാണെങ്കിൽ, വാക്സിനേഷൻ മികച്ചതാണെന്ന് നമുക്ക് കാണാം. വിരോധാഭാസമെന്നു പറയട്ടെ, സംയോജിത സെറ്റ് നോക്കുമ്പോൾ, പ്രതിരോധ കുത്തിവയ്പ് എടുക്കാത്തവർക്ക് മോശമായ ഫലമുണ്ടെന്ന് തോന്നുന്നു. ഈ രീതിയിൽ, ഡാറ്റ ഉപയോഗിച്ച് നിങ്ങൾക്ക് വിപരീത വാദങ്ങൾക്കായി ഒരു കേസ് ഉണ്ടാക്കാൻ കഴിയും.

ഡാറ്റ പക്ഷപാതപരമാണ്

ഡാറ്റ എപ്പോഴും വിശ്വസിക്കാൻ കഴിയില്ല. ശാസ്ത്ര സമൂഹത്തിൽ പോലും, സർവേയിൽ പങ്കെടുത്ത മൂന്നിലൊന്ന് ഗവേഷകരും സമ്മതിച്ചു "സംശയനീയമായ ഗവേഷണ രീതികൾ."  മറ്റൊരു ഗവേഷണ തട്ടിപ്പ് ഡിറ്റക്ടീവ് പറയുന്നു, "ഡാറ്റയിൽ വളരെ കൂടുതൽ തട്ടിപ്പുകൾ ഉണ്ട് - പട്ടികകൾ, ലൈൻ ഗ്രാഫുകൾ, സീക്വൻസിങ് ഡാറ്റ [- നമ്മൾ യഥാർത്ഥത്തിൽ കണ്ടെത്തുന്നതിനേക്കാൾ]. അവരുടെ അടുക്കള മേശയിൽ ഇരിക്കുന്ന ആർക്കും ഒരു സ്‌പ്രെഡ്‌ഷീറ്റിൽ കുറച്ച് നമ്പറുകൾ ഇടുകയും ബോധ്യപ്പെടുത്തുന്ന ഒരു ലൈൻ ഗ്രാഫ് ഉണ്ടാക്കുകയും ചെയ്യാം.

ഇത് ആദ്യം ഉദാഹരണം ആരോ അത് ചെയ്തതായി തോന്നുന്നു. ഇത് വഞ്ചനയാണെന്ന് ഞാൻ പറയുന്നില്ല, എന്നാൽ ഒരു സർവേ എന്ന നിലയിൽ, അറിവുള്ള തീരുമാനത്തിന് സംഭാവന നൽകുന്ന ഒരു ഡാറ്റയും ഇത് സൃഷ്ടിക്കുന്നില്ല. പെട്രോൾ സ്റ്റേഷൻ കോഫിയെക്കുറിച്ചോ മറ്റ് പ്രസക്തമായ നിലവിലെ സംഭവങ്ങളെക്കുറിച്ചോ സർവേ പ്രതികരിച്ചവരോട് അവരുടെ അഭിപ്രായം ചോദിച്ചതായി തോന്നുന്നു. 

  1. സൂപ്പർബ് 
  2. മഹത്തായ
  3. വളരെ നല്ലത് 

കുറ്റവാളിയെക്കുറിച്ചുള്ള പരാമർശങ്ങൾ നീക്കം ചെയ്യാൻ ഞാൻ ട്വിറ്റർ പോസ്റ്റ് ക്രോപ്പ് ചെയ്‌തു, എന്നാൽ സർവേയുടെ അന്തിമ ഫലങ്ങളുടെ യഥാർത്ഥ മുഴുവൻ ചാർട്ട് ഇതാണ്. ഇത്തരം സർവേകൾ അസാധാരണമല്ല. വ്യക്തമായും, പ്രതികരണങ്ങളുടെ ഫലമായുണ്ടാകുന്ന ഡാറ്റയിൽ നിന്ന് സൃഷ്‌ടിച്ച ഏത് ചാർട്ടും സംശയാസ്‌പദമായ കോഫി നഷ്‌ടപ്പെടുത്തേണ്ടതില്ലെന്ന് കാണിക്കും.  

നിങ്ങൾക്ക് ഈ സർവേ നൽകുകയും നിങ്ങളുടെ ചിന്തയ്ക്ക് അനുയോജ്യമായ ഒരു പ്രതികരണം കണ്ടെത്തുകയും ചെയ്തില്ലെങ്കിൽ, നിങ്ങൾ സർവേ ഒഴിവാക്കും എന്നതാണ് പ്രശ്നം. അവിശ്വസനീയമായ ഡാറ്റ എങ്ങനെ സൃഷ്ടിക്കാം എന്നതിന്റെ ഏറ്റവും വലിയ ഉദാഹരണമായിരിക്കാം ഇത്. മോശം സർവ്വേ ഡിസൈൻ, എന്നിരുന്നാലും, കുറച്ച് പ്രതികരണങ്ങളിലേക്ക് നയിച്ചേക്കാം, പ്രതികരിക്കുന്നവർക്ക് ഒരു അഭിപ്രായമേ ഉള്ളൂ, ഇത് ബിരുദത്തിന്റെ കാര്യം മാത്രമാണ്. ഡാറ്റ പക്ഷപാതപരമാണ്.

ഡാറ്റാ ബയസിന്റെ ഈ രണ്ടാമത്തെ ഉദാഹരണം "" എന്ന ഫയലുകളിൽ നിന്നുള്ളതാണ്ഏറ്റവും മോശമായ COVID 19 തെറ്റിദ്ധരിപ്പിക്കുന്ന ഗ്രാഫുകൾ. " 

വീണ്ടും, ഇത് സൂക്ഷ്മവും പൂർണ്ണമായും വ്യക്തവുമല്ല. ഫ്ലോറിഡയിലെ ഒരു കൗണ്ടിയിൽ കാലക്രമേണ പോസിറ്റീവ് COVID-19 കേസുകളുടെ ശതമാനം കുറയുന്നത് ബാർ ഗ്രാഫ് കാണിക്കുന്നു. കേസുകൾ കുറയുന്നു എന്ന നിഗമനത്തിൽ നിങ്ങൾക്ക് എളുപ്പത്തിൽ എത്തിച്ചേരാനാകും. അത് വളരെ മികച്ചതാണ്, ദൃശ്യവൽക്കരണം ഡാറ്റയെ കൃത്യമായി പ്രതിനിധീകരിക്കുന്നു. ഡാറ്റയിലാണ് പ്രശ്നം. അതിനാൽ, നിങ്ങൾക്ക് ഇത് കാണാൻ കഴിയാത്തതിനാൽ ഇത് കൂടുതൽ വഞ്ചനാപരമായ പക്ഷപാതമാണ്. ഇത് ഡാറ്റയിലേക്ക് ചുട്ടിരിക്കുന്നു. നിങ്ങൾ ചോദിക്കേണ്ട, ഉൾപ്പെടുത്തേണ്ട ചോദ്യങ്ങൾ, ആരാണ് പരീക്ഷിക്കപ്പെടുന്നത്? മറ്റൊരു വിധത്തിൽ പറഞ്ഞാൽ, എന്താണ് ഡിനോമിനേറ്റർ, അല്ലെങ്കിൽ നമ്മൾ ഒരു ശതമാനം നോക്കുന്ന ജനസംഖ്യ. ഇത് മുഴുവൻ ജനസംഖ്യയും അല്ലെങ്കിൽ കുറഞ്ഞത് ഒരു പ്രതിനിധി സാമ്പിളും ആണെന്നാണ് അനുമാനം.

എന്നിരുന്നാലും, ഈ കാലയളവിൽ, ഈ കൗണ്ടിയിൽ, പരിമിതമായ എണ്ണം ആളുകൾക്ക് മാത്രമേ പരിശോധനകൾ നൽകിയിട്ടുള്ളൂ. അവർക്ക് കോവിഡ് പോലുള്ള ലക്ഷണങ്ങൾ ഉണ്ടായിരിക്കണം, അല്ലെങ്കിൽ ഹോട്ട് സ്‌പോട്ടുകളുടെ ലിസ്റ്റിലുള്ള ഒരു രാജ്യത്തേക്ക് അടുത്തിടെ യാത്ര ചെയ്‌തിരുന്നു. കൂടാതെ, ഓരോ പോസിറ്റീവ് ടെസ്റ്റും എണ്ണപ്പെട്ടു, ഓരോ നെഗറ്റീവ് ടെസ്റ്റും എണ്ണപ്പെട്ടു എന്ന വസ്തുതയാണ് ഫലങ്ങളെ ആശയക്കുഴപ്പത്തിലാക്കുന്നത്. സാധാരണഗതിയിൽ, ഒരു വ്യക്തി പോസിറ്റീവ് ആണെന്ന് പരിശോധിക്കുമ്പോൾ, വൈറസ് അതിന്റെ ഗതിയിൽ പ്രവർത്തിക്കുമ്പോൾ അവർ വീണ്ടും പരിശോധിക്കുകയും നെഗറ്റീവ് പരിശോധന നടത്തുകയും ചെയ്യും. അതിനാൽ, ഒരർത്ഥത്തിൽ, ഓരോ പോസിറ്റീവ് കേസിനും, അത് റദ്ദാക്കുന്ന ഒരു നെഗറ്റീവ് ടെസ്റ്റ് കേസ് ഉണ്ട്. ഭൂരിഭാഗം ടെസ്റ്റുകളും നെഗറ്റീവ് ആണ്, ഓരോ വ്യക്തിയുടെയും നെഗറ്റീവ് ടെസ്റ്റുകൾ കണക്കാക്കി. ഡാറ്റ എങ്ങനെ പക്ഷപാതപരമാണെന്നും തീരുമാനങ്ങൾ എടുക്കുന്നതിന് പ്രത്യേകിച്ചും ഉപയോഗപ്രദമല്ലെന്നും നിങ്ങൾക്ക് കാണാൻ കഴിയും. 

AI ഇൻപുട്ടും പരിശീലനവും പക്ഷപാതപരമാണ്

AI-യ്ക്ക് പക്ഷപാതപരമായ ഫലങ്ങളിലേക്ക് നയിക്കാൻ കുറഞ്ഞത് രണ്ട് വഴികളുണ്ട്: പക്ഷപാതപരമായ ഡാറ്റയിൽ നിന്ന് ആരംഭിക്കുക, അല്ലെങ്കിൽ സാധുവായ ഡാറ്റ പ്രോസസ്സ് ചെയ്യുന്നതിന് പക്ഷപാതപരമായ അൽഗോരിതം ഉപയോഗിക്കുക.  

പക്ഷപാതപരമായ ഇൻപുട്ട്

സംഖ്യകൾ തകർക്കാനും അതിന്റെ അൽഗോരിതം പ്രയോഗിക്കാനും ഡാറ്റയുടെ വിശ്വസനീയമായ വിശകലനം തുപ്പാനും AI-യെ വിശ്വസിക്കാമെന്ന ധാരണയിലാണ് നമ്മളിൽ പലരും. ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസിന് പരിശീലനം ലഭിച്ചാൽ മാത്രമേ സ്മാർട്ടാകൂ. ഇത് പരിശീലിപ്പിച്ച ഡാറ്റ അപൂർണ്ണമാണെങ്കിൽ, ഫലങ്ങളോ നിഗമനങ്ങളോ വിശ്വസിക്കാൻ കഴിയില്ല. സർവേ പക്ഷപാതത്തിന്റെ മുകളിൽ പറഞ്ഞതിന് സമാനമായി, ഡാറ്റ ആയിരിക്കാൻ കഴിയുന്ന നിരവധി മാർഗങ്ങളുണ്ട് പക്ഷപാതം മെഷീൻ ലേണിംഗിൽ:.  

  • സാമ്പിൾ ബയസ് - പരിശീലന ഡാറ്റാസെറ്റ് മുഴുവൻ ജനസംഖ്യയുടെയും പ്രതിനിധിയല്ല.
  • ഒഴിവാക്കൽ പക്ഷപാതം - ചിലപ്പോൾ ഔട്ട്‌ലൈയറുകളായി കാണപ്പെടുന്നവ യഥാർത്ഥത്തിൽ സാധുതയുള്ളവയാണ്, അല്ലെങ്കിൽ, എന്താണ് ഉൾപ്പെടുത്തേണ്ടതെന്ന് ഞങ്ങൾ വരയ്ക്കുന്നിടത്ത് (സിപ്പ് കോഡുകൾ, തീയതികൾ മുതലായവ).
  • അളക്കൽ പക്ഷപാതം - കൺവെൻഷൻ എല്ലായ്പ്പോഴും മെനിസ്‌കസിന്റെ മധ്യഭാഗത്തും താഴെയുമായി അളക്കുക എന്നതാണ്, ഉദാഹരണത്തിന്, വോള്യൂമെട്രിക് ഫ്ലാസ്കുകളിലോ ടെസ്റ്റ് ട്യൂബുകളിലോ ദ്രാവകങ്ങൾ അളക്കുമ്പോൾ (മെർക്കുറി ഒഴികെ.)
  • പക്ഷപാതം ഓർക്കുക - ഗവേഷണം പങ്കെടുക്കുന്നവരുടെ മെമ്മറിയെ ആശ്രയിക്കുമ്പോൾ.
  • നിരീക്ഷക പക്ഷപാതം - എല്ലാ മനുഷ്യരെയും പോലെ ശാസ്ത്രജ്ഞരും അവർ കാണാൻ പ്രതീക്ഷിക്കുന്നത് കാണാൻ കൂടുതൽ ചായ്വുള്ളവരാണ്.
  • ലിംഗവിവേചനപരവും വംശീയവുമായ പക്ഷപാതം - ലൈംഗികതയോ വംശമോ കൂടുതലോ കുറവോ പ്രതിനിധീകരിക്കപ്പെടാം.  
  • അസോസിയേഷൻ ബയസ് - ഡാറ്റ സ്റ്റീരിയോടൈപ്പുകളെ ശക്തിപ്പെടുത്തുന്നു

AI-ന് വിശ്വസനീയമായ ഫലങ്ങൾ നൽകുന്നതിന്, അതിന്റെ പരിശീലന ഡാറ്റ യഥാർത്ഥ ലോകത്തെ പ്രതിനിധീകരിക്കേണ്ടതുണ്ട്. മുമ്പത്തെ ഒരു ബ്ലോഗ് ലേഖനത്തിൽ ഞങ്ങൾ ചർച്ച ചെയ്തതുപോലെ, മറ്റേതൊരു ഡാറ്റാ പ്രൊജക്‌റ്റിനെയും പോലെ ഡാറ്റ തയ്യാറാക്കൽ നിർണായകമാണ്. വിശ്വസനീയമല്ലാത്ത ഡാറ്റ മെഷീൻ ലേണിംഗ് സിസ്റ്റങ്ങളെ തെറ്റായ പാഠം പഠിപ്പിക്കുകയും തെറ്റായ നിഗമനത്തിൽ കലാശിക്കുകയും ചെയ്യും. അത് പറഞ്ഞു, “എല്ലാ ഡാറ്റയും പക്ഷപാതപരമാണ്. ഇത് ഭ്രമാത്മകതയല്ല. ഇത് വസ്തുതയാണ്. ” – ഡോ. സഞ്ജീവ് എം. നാരായൺ, സ്റ്റാൻഫോർഡ് യൂണിവേഴ്സിറ്റി സ്കൂൾ ഓഫ് മെഡിസിൻ.

പരിശീലനത്തിനായി പക്ഷപാതപരമായ ഡാറ്റ ഉപയോഗിക്കുന്നത് ശ്രദ്ധേയമായ നിരവധി AI പരാജയങ്ങളിലേക്ക് നയിച്ചു. (ഉദാഹരണങ്ങൾ ഇവിടെ ഒപ്പം ഇവിടെ, ഗവേഷണം ഇവിടെ..)

പക്ഷപാതപരമായ അൽഗോരിതങ്ങൾ

ഒരു ഇൻപുട്ട് സ്വീകരിക്കുകയും ഒരു ബിസിനസ് പ്രശ്‌നത്തിന് ഉത്തരം നൽകുന്നതിന് ഔട്ട്‌പുട്ട് സൃഷ്‌ടിക്കുകയും ചെയ്യുന്ന ഒരു കൂട്ടം നിയമങ്ങളാണ് അൽഗോരിതം. അവ പലപ്പോഴും നന്നായി നിർവചിക്കപ്പെട്ട തീരുമാന മരങ്ങളാണ്. അൽഗോരിതങ്ങൾ ബ്ലാക്ക് ബോക്സുകൾ പോലെ തോന്നുന്നു. അവർ എങ്ങനെ പ്രവർത്തിക്കുന്നുവെന്ന് ആർക്കും ഉറപ്പില്ല, പലപ്പോഴും, പോലും അവ ഉപയോഗിക്കുന്ന കമ്പനികൾ. ഓ, അവ പലപ്പോഴും ഉടമസ്ഥതയുള്ളവയാണ്. അവയുടെ നിഗൂഢവും സങ്കീർണ്ണവുമായ സ്വഭാവമാണ് പക്ഷപാതപരമായ അൽഗോരിതങ്ങൾ ഇത്ര വഞ്ചനാപരമാകാനുള്ള ഒരു കാരണം. . 

റേസ് പരിഗണിക്കുന്ന മെഡിസിൻ, എച്ച്ആർ അല്ലെങ്കിൽ ഫിനാൻസ് എന്നിവയിലെ AI അൽഗോരിതങ്ങൾ പരിഗണിക്കുക. വംശം ഒരു ഘടകമാണെങ്കിൽ, അൽഗോരിതം വംശീയമായി അന്ധമാകില്ല. ഇത് സൈദ്ധാന്തികമല്ല. AI ഇൻ ഉപയോഗിച്ച് യഥാർത്ഥ ലോകത്ത് ഇതുപോലുള്ള പ്രശ്നങ്ങൾ കണ്ടെത്തിയിട്ടുണ്ട് ഇതിനേക്കാൾ, റൈഡ്-ഷെയർ, വായ്പ അപേക്ഷമണല് വൃക്ക മാറ്റിവയ്ക്കൽ

നിങ്ങളുടെ ഡാറ്റയോ അൽ‌ഗോരിതമോ മോശമാണെങ്കിൽ, ഉപയോഗശൂന്യമായതിനേക്കാൾ മോശമാണെങ്കിൽ, അവ അപകടകരമായേക്കാം എന്നതാണ് ഏറ്റവും പ്രധാന കാര്യം. അത്തരത്തിലുള്ള ഒരു കാര്യമുണ്ട് "അൽഗോരിതം ഓഡിറ്റ്.” നീതി, പക്ഷപാതം, വിവേചനം എന്നിവയുമായി ബന്ധപ്പെട്ട അൽഗോരിതവുമായി ബന്ധപ്പെട്ട അപകടസാധ്യതകൾ തിരിച്ചറിയാൻ ഓർഗനൈസേഷനുകളെ സഹായിക്കുക എന്നതാണ് ലക്ഷ്യം. മറ്റൊരിടത്ത്, ഫേസ്ബുക്ക് AI-യിലെ പക്ഷപാതത്തിനെതിരെ പോരാടാൻ AI ഉപയോഗിക്കുന്നു.

ആളുകൾ പക്ഷപാതപരമാണ്

സമവാക്യത്തിന്റെ ഇരുവശത്തും ഞങ്ങൾക്ക് ആളുകളുണ്ട്. ആളുകൾ വിശകലനം തയ്യാറാക്കുന്നു, ആളുകൾക്ക് വിവരങ്ങൾ ലഭിക്കുന്നു. ഗവേഷകരുണ്ട്, വായനക്കാരുമുണ്ട്. ഏതൊരു ആശയവിനിമയത്തിലും, പ്രക്ഷേപണത്തിലോ സ്വീകരണത്തിലോ പ്രശ്നങ്ങൾ ഉണ്ടാകാം.

ഉദാഹരണത്തിന് കാലാവസ്ഥ എടുക്കുക. “മഴയ്ക്കുള്ള സാധ്യത” എന്താണ് അർത്ഥമാക്കുന്നത്? ആദ്യം, മഴ പെയ്യാൻ സാധ്യതയുണ്ടെന്ന് കാലാവസ്ഥാ നിരീക്ഷകർ പറയുമ്പോൾ എന്താണ് അർത്ഥമാക്കുന്നത്? യുഎസ് സർക്കാരിന്റെ അഭിപ്രായത്തിൽ ദേശീയ കാലാവസ്ഥ സേവനം, മഴ പെയ്യാനുള്ള സാധ്യത, അല്ലെങ്കിൽ അവർ വിളിക്കുന്ന പ്രോബബിലിറ്റി ഓഫ് റെസിപിറ്റേഷൻ (PoP) എന്നത് കാലാവസ്ഥാ പ്രവചനത്തിലെ ഏറ്റവും കുറച്ച് മനസ്സിലാക്കിയ ഘടകങ്ങളിലൊന്നാണ്. അതിന് ഒരു സ്റ്റാൻഡേർഡ് ഡെഫനിഷൻ ഉണ്ട്: "നിർദിഷ്ട സമയപരിധിയിൽ നൽകിയിരിക്കുന്ന പ്രവചന പ്രദേശത്ത് ഒരു നിശ്ചിത പ്രദേശത്ത് 0.01" ഇഞ്ച് [sic] കൂടുതൽ മഴയുടെ സ്ഥിതിവിവരക്കണക്ക് സംഭാവ്യതയാണ് മഴയുടെ സംഭാവ്യത." "നൽകിയ പ്രദേശം" എന്നത് പ്രവചന മേഖലയാണ്, അല്ലെങ്കിൽ ബിroadകാസ്റ്റ് ഏരിയ. അതായത് ആ പ്രദേശത്ത് എവിടെയെങ്കിലും മഴ പെയ്യുമെന്ന വിശ്വാസത്തെയും നനയുന്ന പ്രദേശത്തിന്റെ ശതമാനത്തെയും ആശ്രയിച്ചിരിക്കും ഔദ്യോഗിക മഴയുടെ സാധ്യത. മറ്റൊരു വിധത്തിൽ പറഞ്ഞാൽ, കാലാവസ്ഥാ നിരീക്ഷകന് പ്രവചന മേഖലയിൽ മഴ പെയ്യുമെന്ന് ഉറപ്പുണ്ടെങ്കിൽ (ആത്മവിശ്വാസം = 100%), മഴ ലഭിക്കുന്ന പ്രദേശത്തിന്റെ ഭാഗത്തെ PoP പ്രതിനിധീകരിക്കുന്നു.  

പാരീസ് സ്ട്രീറ്റ്; മഴയുള്ള ദിവസം,ഗുസ്താവ് കയിലെബോട്ട് (1848-1894) ചിക്കാഗോ ആർട്ട് ഇൻസ്റ്റിറ്റ്യൂട്ട് പബ്ലിക് ഡൊമെയ്ൻ

മഴയുടെ സാധ്യത ആത്മവിശ്വാസത്തെയും പ്രദേശത്തെയും ആശ്രയിച്ചിരിക്കുന്നു. എനിക്ക് അത് അറിയില്ലായിരുന്നു. മറ്റുള്ളവർക്കും ഇത് അറിയില്ല എന്ന് ഞാൻ സംശയിക്കുന്നു. ജനസംഖ്യയുടെ ഏകദേശം 75% പേർക്കും PoP എങ്ങനെയാണ് കണക്കാക്കുന്നത്, അല്ലെങ്കിൽ അത് എന്താണ് പ്രതിനിധീകരിക്കുന്നത് എന്ന് കൃത്യമായി മനസ്സിലാകുന്നില്ല. അതിനാൽ, നമ്മൾ വഞ്ചിക്കപ്പെടുകയാണോ, അതോ, ഇത് ധാരണയുടെ പ്രശ്നമാണോ. നമുക്ക് അതിനെ മഴ പെർസെപ്ഷൻ എന്ന് വിളിക്കാം. കാലാവസ്ഥാ പ്രവചകനെ നാം കുറ്റപ്പെടുത്തുമോ? ശരിയായി പറഞ്ഞാൽ, ചിലത് ഉണ്ട് ആശയക്കുഴപ്പം കാലാവസ്ഥാ പ്രവചനക്കാർക്കിടയിലും. ഒന്നിൽ സർവേ, സർവേയിൽ പങ്കെടുത്ത 43% കാലാവസ്ഥാ നിരീക്ഷകരും PoP യുടെ നിർവചനത്തിൽ വളരെ കുറച്ച് സ്ഥിരതയുണ്ടെന്ന് പറഞ്ഞു.

വിശകലനം തന്നെ പക്ഷപാതപരമാണ്

സ്വാധീനിക്കുന്ന അഞ്ച് ഘടകങ്ങളിൽ, വിശകലനം തന്നെ ഏറ്റവും ആശ്ചര്യകരമാണ്. ശാസ്ത്രീയ ഗവേഷണത്തിൽ, അവലോകനം ചെയ്ത ഒരു പേപ്പർ പ്രസിദ്ധീകരിക്കപ്പെടുന്നു, സാധാരണയായി ഒരു സിദ്ധാന്തം അനുമാനിക്കപ്പെടുന്നു, അനുമാനം പരിശോധിക്കുന്നതിനുള്ള രീതികൾ നിർവചിക്കപ്പെടുന്നു, ഡാറ്റ ശേഖരിക്കുന്നു, തുടർന്ന് ഡാറ്റ വിശകലനം ചെയ്യുന്നു. വിശകലനത്തിന്റെ തരവും അത് എങ്ങനെ ചെയ്യുന്നു എന്നതും നിഗമനങ്ങളെ എങ്ങനെ ബാധിക്കുന്നു എന്നതിനെ കുറച്ചുകാണുന്നു. ഒരു പേപ്പർ ഈ വർഷം ആദ്യം (ജനുവരി 2022) പ്രസിദ്ധീകരിച്ചത്, ഇന്റർനാഷണൽ ജേണൽ ഓഫ് ക്യാൻസറിൽ, ക്രമരഹിതമായ നിയന്ത്രിത പരീക്ഷണങ്ങളുടെയും മുൻകാല നിരീക്ഷണ പഠനങ്ങളുടെയും ഫലങ്ങൾ രചയിതാക്കൾ വിലയിരുത്തി. അവരുടെ കണ്ടെത്തലുകൾ നിഗമനം ചെയ്തു,

താരതമ്യ ഫലപ്രാപ്തി ഗവേഷണത്തിലെ വ്യത്യസ്ത വിശകലന ചോയിസുകൾ വഴി, ഞങ്ങൾ വിപരീത ഫലങ്ങൾ സൃഷ്ടിച്ചു. ഞങ്ങളുടെ ഫലങ്ങൾ സൂചിപ്പിക്കുന്നത് ചില മുൻകാല നിരീക്ഷണ പഠനങ്ങൾ ഒരു ചികിത്സ രോഗികളുടെ ഫലങ്ങൾ മെച്ചപ്പെടുത്തുന്നതായി കണ്ടെത്തിയേക്കാം, അതേസമയം സമാനമായ മറ്റൊരു പഠനം അത് വിശകലന തിരഞ്ഞെടുപ്പുകളെ അടിസ്ഥാനമാക്കിയുള്ളതല്ലെന്ന് കണ്ടെത്തിയേക്കാം.

പണ്ട്, ഒരു സയന്റിഫിക് ജേണൽ ലേഖനം വായിക്കുമ്പോൾ, നിങ്ങൾ എന്നെപ്പോലെയാണെങ്കിൽ, ഫലങ്ങൾ അല്ലെങ്കിൽ നിഗമനങ്ങൾ എല്ലാം ഡാറ്റയെക്കുറിച്ചാണെന്ന് നിങ്ങൾ ചിന്തിച്ചിരിക്കാം. ഇപ്പോൾ, ഫലങ്ങൾ, അല്ലെങ്കിൽ പ്രാരംഭ സിദ്ധാന്തം സ്ഥിരീകരിക്കപ്പെടുകയോ നിരാകരിക്കുകയോ ചെയ്യുന്നത് വിശകലന രീതിയെ ആശ്രയിച്ചിരിക്കും.

മറ്റൊരു പഠിക്കുക സമാനമായ ഫലങ്ങൾ കണ്ടെത്തി. ലേഖനം, നിരവധി അനലിസ്റ്റുകൾ, ഒരു ഡാറ്റാ സെറ്റ്: അനലിറ്റിക് ചോയ്‌സുകളിലെ വ്യതിയാനങ്ങൾ ഫലങ്ങളെ എങ്ങനെ ബാധിക്കുന്നുവെന്നത് സുതാര്യമാക്കുന്നു, വിശകലനത്തിനായി 29 വ്യത്യസ്ത ടീമുകൾക്ക് ഒരേ ഡാറ്റ സെറ്റ് നൽകിയത് എങ്ങനെയെന്ന് വിവരിക്കുന്നു. ഡാറ്റാ വിശകലനം പലപ്പോഴും കർശനവും നന്നായി നിർവചിക്കപ്പെട്ടതുമായ ഒരു പ്രക്രിയയായി കാണപ്പെടുന്നു, അത് ഒരൊറ്റ നിഗമനത്തിലേക്ക് നയിക്കുന്നു.  

മെത്തഡോളജിസ്റ്റുകളുടെ ആലോചനകൾ ഉണ്ടായിരുന്നിട്ടും, ഫലങ്ങൾ തിരഞ്ഞെടുത്ത വിശകലന തന്ത്രത്തെ ആശ്രയിച്ചിരിക്കും എന്ന വസ്തുത അവഗണിക്കുന്നത് എളുപ്പമാണ്, അത് സിദ്ധാന്തം, അനുമാനങ്ങൾ, തിരഞ്ഞെടുപ്പ് പോയിന്റുകൾ എന്നിവയാൽ നിറഞ്ഞിരിക്കുന്നു. മിക്ക കേസുകളിലും, ഒരു ഗവേഷണ ചോദ്യത്തെ ബാധിക്കുന്ന ഡാറ്റയെ വിലയിരുത്തുന്നതിന് നിരവധി ന്യായമായ (അന്യമായ) സമീപനങ്ങളുണ്ട്.

ഗവേഷകർ ഡാറ്റയുടെ വിശകലനം ക്രൗഡ്-സോഴ്‌സ് ചെയ്യുകയും എല്ലാ ഗവേഷണങ്ങളിലും ആത്മനിഷ്ഠമായ തീരുമാനങ്ങൾ ഉൾപ്പെടുന്നു എന്ന നിഗമനത്തിലെത്തി - ഏത് തരം വിശകലനം ഉപയോഗിക്കണം എന്നതുൾപ്പെടെ - ഇത് പഠനത്തിന്റെ ആത്യന്തിക ഫലത്തെ ബാധിക്കും.

മറ്റൊരാളുടെ ശുപാർശ ഗവേഷകൻ മേൽപ്പറഞ്ഞ പഠനം വിശകലനം ചെയ്തവർ, തീരുമാനങ്ങൾ എടുക്കുന്നതിനോ നിഗമനങ്ങളിൽ എത്തിച്ചേരുന്നതിനോ ഒരു പേപ്പർ ഉപയോഗിക്കുമ്പോൾ ജാഗ്രത പാലിക്കണം.

അനലിറ്റിക്‌സിലെ പക്ഷപാതത്തെ അഭിസംബോധന ചെയ്യുന്നു

ഇത് കേവലം ഒരു മുന്നറിയിപ്പ് കഥയാണ്. അറിവിന് നമ്മെ കുംഭകോണങ്ങളിൽ നിന്ന് സംരക്ഷിക്കാൻ കഴിയും. ഒരു സ്കാനർ നമ്മെ കബളിപ്പിക്കാൻ ഉപയോഗിച്ചേക്കാവുന്ന സാധ്യമായ രീതികളെക്കുറിച്ച് കൂടുതൽ ബോധവാന്മാരാകുമ്പോൾ, ഒരു പോക്കറ്റടിക്കാരന്റെ തെറ്റായ ദിശാസൂചന, അല്ലെങ്കിൽ ഒരു പോൺസി നാടകത്തിന്റെ സുഗമമായ സംസാരം എന്നിവയിൽ നാം അകപ്പെടാനുള്ള സാധ്യത കുറവാണ്. അതിനാൽ, നമ്മുടെ വിശകലനത്തെ ബാധിക്കുന്ന സാധ്യതയുള്ള പക്ഷപാതങ്ങൾ മനസ്സിലാക്കുകയും തിരിച്ചറിയുകയും ചെയ്യുന്നു. സാധ്യതയുള്ള സ്വാധീനങ്ങളെക്കുറിച്ച് ബോധവാന്മാരാണെങ്കിൽ, കഥയെ മികച്ച രീതിയിൽ അവതരിപ്പിക്കാനും ആത്യന്തികമായി മികച്ച തീരുമാനങ്ങൾ എടുക്കാനും ഞങ്ങൾക്ക് കഴിഞ്ഞേക്കും.  

BI/Analyticsതിരിക്കാത്തവ
എന്തുകൊണ്ട് Microsoft Excel #1 അനലിറ്റിക്സ് ടൂൾ ആണ്
എന്തുകൊണ്ടാണ് Excel #1 Analytics ടൂൾ?

എന്തുകൊണ്ടാണ് Excel #1 Analytics ടൂൾ?

  ഇത് വിലകുറഞ്ഞതും എളുപ്പവുമാണ്. Microsoft Excel സ്‌പ്രെഡ്‌ഷീറ്റ് സോഫ്‌റ്റ്‌വെയർ ബിസിനസ്സ് ഉപയോക്താവിൻ്റെ കമ്പ്യൂട്ടറിൽ ഇതിനകം തന്നെ ഇൻസ്റ്റാൾ ചെയ്‌തിരിക്കാം. കൂടാതെ ഇന്നത്തെ പല ഉപയോക്താക്കളും ഹൈസ്കൂൾ മുതലോ അതിനു മുമ്പോ മൈക്രോസോഫ്റ്റ് ഓഫീസ് സോഫ്‌റ്റ്‌വെയറുമായി സമ്പർക്കം പുലർത്തിയിട്ടുണ്ട്. ഈ മുട്ടുവിറച്ച പ്രതികരണം...

കൂടുതല് വായിക്കുക

BI/Analyticsതിരിക്കാത്തവ
നിങ്ങളുടെ സ്ഥിതിവിവരക്കണക്കുകൾ ക്രമരഹിതമാക്കുക: അനലിറ്റിക്‌സ് സ്പ്രിംഗ് ക്ലീനിംഗിലേക്കുള്ള ഒരു ഗൈഡ്

നിങ്ങളുടെ സ്ഥിതിവിവരക്കണക്കുകൾ ക്രമരഹിതമാക്കുക: അനലിറ്റിക്‌സ് സ്പ്രിംഗ് ക്ലീനിംഗിലേക്കുള്ള ഒരു ഗൈഡ്

നിങ്ങളുടെ സ്ഥിതിവിവരക്കണക്കുകൾ ക്രമരഹിതമാക്കുക അനലിറ്റിക്‌സ് സ്‌പ്രിംഗ് ക്ലീനിംഗിലേക്കുള്ള ഒരു വഴികാട്ടി പുതുവർഷം ഗംഭീരമായി ആരംഭിക്കുന്നു; വർഷാവസാന റിപ്പോർട്ടുകൾ സൃഷ്ടിക്കുകയും സൂക്ഷ്മപരിശോധന നടത്തുകയും ചെയ്യുന്നു, തുടർന്ന് എല്ലാവരും സ്ഥിരമായ ഒരു വർക്ക് ഷെഡ്യൂളിൽ സ്ഥിരതാമസമാക്കുന്നു. ദിവസങ്ങൾ നീളുകയും മരങ്ങളും പൂക്കളും വിരിയുകയും ചെയ്യുമ്പോൾ...

കൂടുതല് വായിക്കുക

BI/Analyticsതിരിക്കാത്തവ
NY സ്റ്റൈൽ വേഴ്സസ് ചിക്കാഗോ സ്റ്റൈൽ പിസ്സ: ഒരു രുചികരമായ സംവാദം

NY സ്റ്റൈൽ വേഴ്സസ് ചിക്കാഗോ സ്റ്റൈൽ പിസ്സ: ഒരു രുചികരമായ സംവാദം

നമ്മുടെ ആസക്തികളെ തൃപ്തിപ്പെടുത്തുമ്പോൾ, ചൂടുള്ള പിസ്സ കഷ്ണം കഴിക്കുന്നതിൻ്റെ സന്തോഷത്തെ എതിർക്കാൻ കുറച്ച് കാര്യങ്ങൾക്ക് കഴിയും. ന്യൂയോർക്ക് ശൈലിയും ചിക്കാഗോ ശൈലിയിലുള്ള പിസ്സയും തമ്മിലുള്ള സംവാദം പതിറ്റാണ്ടുകളായി ആവേശകരമായ ചർച്ചകൾക്ക് കാരണമായി. ഓരോ ശൈലിക്കും അതിൻ്റേതായ സവിശേഷതകളും അർപ്പണബോധമുള്ള ആരാധകരുമുണ്ട്....

കൂടുതല് വായിക്കുക

BI/Analyticsകോഗ്നോസ് അനലിറ്റിക്സ്
കോഗ്നോസ് ക്വറി സ്റ്റുഡിയോ
നിങ്ങളുടെ ഉപയോക്താക്കൾക്ക് അവരുടെ അന്വേഷണ സ്റ്റുഡിയോ വേണം

നിങ്ങളുടെ ഉപയോക്താക്കൾക്ക് അവരുടെ അന്വേഷണ സ്റ്റുഡിയോ വേണം

ഐബിഎം കോഗ്‌നോസ് അനലിറ്റിക്‌സ് 12-ൻ്റെ പ്രകാശനത്തോടെ, ക്വറി സ്റ്റുഡിയോയുടെയും അനാലിസിസ് സ്റ്റുഡിയോയുടെയും ദീർഘകാലമായി പ്രഖ്യാപിച്ച നിരാകരണം ഒടുവിൽ ആ സ്റ്റുഡിയോകളിൽ നിന്ന് കോഗ്‌നോസ് അനലിറ്റിക്‌സിൻ്റെ ഒരു പതിപ്പ് നൽകി. ഇതിൽ ഏർപ്പെട്ടിരിക്കുന്ന ഭൂരിഭാഗം ആളുകളെയും ഇത് അത്ഭുതപ്പെടുത്തേണ്ടതില്ലെങ്കിലും...

കൂടുതല് വായിക്കുക

BI/Analyticsതിരിക്കാത്തവ
ടെയ്‌ലർ സ്വിഫ്റ്റ് ഇഫക്റ്റ് യഥാർത്ഥമാണോ?

ടെയ്‌ലർ സ്വിഫ്റ്റ് ഇഫക്റ്റ് യഥാർത്ഥമാണോ?

ചില വിമർശകർ സൂചിപ്പിക്കുന്നത് അവൾ സൂപ്പർ ബൗൾ ടിക്കറ്റ് നിരക്കുകൾ വർദ്ധിപ്പിക്കുകയാണെന്ന് ഈ വാരാന്ത്യത്തിലെ സൂപ്പർ ബൗൾ ടെലിവിഷൻ ചരിത്രത്തിൽ ഏറ്റവും കൂടുതൽ കണ്ട 3 ഇവൻ്റുകളിൽ ഒന്നായിരിക്കുമെന്ന് പ്രതീക്ഷിക്കുന്നു. ഒരുപക്ഷേ കഴിഞ്ഞ വർഷത്തെ റെക്കോർഡ് സൃഷ്ടിച്ച സംഖ്യകളേക്കാൾ കൂടുതൽ, ഒരുപക്ഷേ 1969-ലെ ചന്ദ്രനേക്കാൾ കൂടുതൽ...

കൂടുതല് വായിക്കുക

BI/Analytics
അനലിറ്റിക്‌സ് കാറ്റലോഗുകൾ - അനലിറ്റിക്‌സ് ഇക്കോസിസ്റ്റത്തിലെ ഉയർന്നുവരുന്ന നക്ഷത്രം

അനലിറ്റിക്‌സ് കാറ്റലോഗുകൾ - അനലിറ്റിക്‌സ് ഇക്കോസിസ്റ്റത്തിലെ ഉയർന്നുവരുന്ന നക്ഷത്രം

ആമുഖം ഒരു ചീഫ് ടെക്‌നോളജി ഓഫീസർ (CTO), ഞങ്ങൾ അനലിറ്റിക്‌സിനെ സമീപിക്കുന്ന രീതിയെ പരിവർത്തനം ചെയ്യുന്ന ഉയർന്നുവരുന്ന സാങ്കേതികവിദ്യകൾക്കായി ഞാൻ എപ്പോഴും ശ്രദ്ധാലുവാണ്. കഴിഞ്ഞ കുറച്ച് വർഷങ്ങളായി എന്റെ ശ്രദ്ധ പിടിച്ചുപറ്റുകയും വലിയ വാഗ്ദാനങ്ങൾ നൽകുകയും ചെയ്ത അത്തരം ഒരു സാങ്കേതികവിദ്യയാണ് Analytics...

കൂടുതല് വായിക്കുക