એનાલિટિક્સ જૂઠાણું

by ઑગસ્ટ 31, 2022BI/એનાલિટિક્સ0 ટિપ્પણીઓ

એનાલિટિક્સ જૂઠાણું

વિશ્લેષણનો પૂર્વગ્રહ

 

માર્ક ટ્વેઈને ચર્ચાસ્પદ રીતે કંઈક એવું કહ્યું હતું કે, “ત્રણ પ્રકારના જૂઠાણાં છે: જૂઠ, તિરસ્કૃત અસત્ય અને ઍનલિટિક્સ. " 

અમે ધ્યાનમાં લઈએ છીએ કે એનાલિટિક્સ અમને ઉપયોગી, પગલાં લેવા યોગ્ય આંતરદૃષ્ટિ આપે છે. આપણે જે ઘણી વાર સમજી શકતા નથી તે એ છે કે આપણા પોતાના અને અન્ય લોકોના પક્ષપાત સૌથી અત્યાધુનિક સોફ્ટવેર અને સિસ્ટમો દ્વારા પણ આપેલા જવાબોને કેવી રીતે પ્રભાવિત કરે છે. કેટલીકવાર, અમારી સાથે અપ્રમાણિક રીતે ચાલાકી થઈ શકે છે, પરંતુ, વધુ સામાન્ય રીતે, તે સૂક્ષ્મ અને બેભાન પૂર્વગ્રહો હોઈ શકે છે જે અમારા વિશ્લેષણમાં ઘૂસી જાય છે. પક્ષપાતી વિશ્લેષણ પાછળની પ્રેરણા અનેકગણી છે. કેટલીકવાર વિજ્ઞાન પાસેથી આપણે જે નિષ્પક્ષ પરિણામોની અપેક્ષા રાખીએ છીએ તે 1) ડેટા કેવી રીતે રજૂ કરવામાં આવે છે તેની સૂક્ષ્મ પસંદગીઓ, 2) અસંગત અથવા બિન-પ્રતિનિધિ ડેટા, 3) AI સિસ્ટમ કેવી રીતે પ્રશિક્ષિત થાય છે, 4) સંશોધકોની અજ્ઞાનતા, અક્ષમતા અથવા અન્ય પ્રયાસોથી પ્રભાવિત થાય છે. વાર્તા કહેવા માટે, 5) વિશ્લેષણ પોતે.    

પ્રસ્તુતિ પક્ષપાતી છે

કેટલાક જૂઠાણાં અન્ય કરતાં શોધવામાં સરળ છે. જ્યારે તમે જાણો છો કે શું જોવાનું છે ત્યારે તમે સંભવિત રીતે વધુ સરળતાથી શોધી શકો છો ભ્રામક ગ્રાફ અને ચાર્ટ. 

ત્યાં ઓછામાં ઓછા છે ભ્રામક રીતે ડેટા પ્રદર્શિત કરવાની પાંચ રીતો: 1) મર્યાદિત ડેટા સેટ બતાવો, 2). અસંબંધિત સહસંબંધો બતાવો, 3) અચોક્કસ રીતે ડેટા બતાવો, 4) બિનપરંપરાગત રીતે ડેટા બતાવો, અથવા 5). ડેટા વધુ-સરળ બતાવો.

મર્યાદિત ડેટા સેટ બતાવો

ડેટાને મર્યાદિત કરવો, અથવા ડેટાના બિન-રેન્ડમ વિભાગને હાથથી પસંદ કરવાથી ઘણીવાર એવી વાર્તા કહી શકાય છે જે મોટા ચિત્ર સાથે સુસંગત નથી. જ્યારે વિશ્લેષક મોટા જૂથનું પ્રતિનિધિત્વ કરવા માટે બિન-પ્રતિનિધિ નમૂનાનો ઉપયોગ કરે છે ત્યારે ખરાબ સેમ્પલિંગ અથવા ચેરી પસંદ કરવામાં આવે છે. 

માર્ચ 2020 માં, જ્યોર્જિયાના જાહેર આરોગ્ય વિભાગ આ ચાર્ટ તેના દૈનિક સ્થિતિ અહેવાલના ભાગ રૂપે પ્રકાશિત કર્યો. તે ખરેખર જવાબો કરતાં વધુ પ્રશ્નો ઉભા કરે છે.  

એક વસ્તુ જે ખૂટે છે તે સંદર્ભ છે. ઉદાહરણ તરીકે, દરેક વય જૂથ માટે વસ્તીની ટકાવારી કેટલી છે તે જાણવું મદદરૂપ થશે. સરળ દેખાતા પાઇ ચાર્ટ સાથેનો બીજો મુદ્દો અસમાન વય જૂથો છે. 0-17માં 18 વર્ષ છે, 18-59માં 42 છે, 60+ ઓપન એન્ડેડ છે, પરંતુ લગભગ 40 વર્ષ છે. એકલા આ ચાર્ટને જોતાં નિષ્કર્ષ એ છે કે મોટાભાગના કેસો 18-59 વર્ષની વય જૂથના છે. 60+ વર્ષની વય જૂથ COVID કેસથી ઓછી ગંભીર રીતે પ્રભાવિત હોય તેવું લાગે છે. પરંતુ આ આખી વાર્તા નથી.

સરખામણી માટે, આ અલગ ડેટા પર સેટ કરો સીડીસી વેબ સાઇટ દરેક વય શ્રેણીમાં રહેલી યુએસ વસ્તીની ટકાવારી પરના વધારાના ડેટા સાથે વય જૂથ દ્વારા COVID કેસનો ચાર્ટ.  

આ વધુ સારું છે. અમારી પાસે વધુ સંદર્ભ છે. આપણે જોઈ શકીએ છીએ કે 18-29, 30-39, 40-49 વય જૂથોમાં વસ્તીમાં વય જૂથની ટકાવારી કરતાં કેસોની ટકાવારી વધુ છે. હજુ પણ કેટલાક અસમાન વય જૂથો છે. શા માટે 16-17 એક અલગ વય જૂથ છે? હજુ પણ આ આખી વાર્તા નથી, પરંતુ પંડિતોએ આનાથી ઓછા પર કોલમ લખી છે, આગાહીઓ કરી છે અને આદેશો આપ્યા છે. દેખીતી રીતે, કોવિડ સાથે, વય ઉપરાંત ઘણા બધા ફેરફારો છે જે હકારાત્મક કેસ તરીકે ગણવામાં આવે છે તે અસર કરે છે: રસીકરણની સ્થિતિ, પરીક્ષણોની ઉપલબ્ધતા, પરીક્ષણની સંખ્યા, સહવર્તી રોગો અને અન્ય ઘણા બધા. કેસોની સંખ્યા, પોતે, અપૂર્ણ ચિત્ર પ્રદાન કરે છે. મોટાભાગના નિષ્ણાતો મૃત્યુની સંખ્યા, અથવા દર 100,000 વસ્તી દીઠ મૃત્યુની ટકાવારી, અથવા કેસ-મૃત્યુને પણ જુએ છે તે જોવા માટે કે COVID દરેક વય જૂથને કેવી રીતે અસર કરે છે.

અસંબંધિત સહસંબંધો બતાવો

દેખીતી રીતે, ત્યાં એ છે મજબૂત સહસંબંધ વિજ્ઞાન, અવકાશ અને ટેકનોલોજી પર યુએસ ખર્ચ અને ફાંસી, ગળું દબાવીને અને ગૂંગળામણ દ્વારા આત્મહત્યાની સંખ્યા વચ્ચે. સહસંબંધ 99.79% છે, લગભગ સંપૂર્ણ મેચ.  

જો કે, કોણ એવો કેસ કરશે કે આ કોઈક રીતે સંબંધિત છે, અથવા એક બીજાનું કારણ બને છે? અન્ય ઓછા આત્યંતિક ઉદાહરણો છે, પરંતુ ઓછા બનાવટી નથી. સ્ક્રિપ્સ નેશનલ સ્પેલિંગ બીના લેટર્સ ઇન વિનિંગ વર્ડ અને વેનોમસ સ્પાઈડર્સ દ્વારા માર્યા ગયેલા લોકોની સંખ્યા વચ્ચે સમાન મજબૂત સંબંધ છે. સંયોગ? તમે નક્કી કરો.

આ ડેટાને ચાર્ટ કરવાની બીજી રીત જે ઓછી ગેરમાર્ગે દોરનારી હોઈ શકે છે તે બંને Y-અક્ષો પર શૂન્યનો સમાવેશ કરવાનો છે.

અચોક્કસ રીતે ડેટા બતાવો

પ્રતિ ખરાબ રીતે ડેટા કેવી રીતે પ્રદર્શિત કરવો, યુએસ સ્ટેટ ઑફ જ્યોર્જિયાએ સૌથી વધુ પુષ્ટિ થયેલ COVID-5 કેસ સાથે ટોચની 19 કાઉન્ટીઓ રજૂ કરી છે.

કાયદેસર લાગે છે, અધિકાર? પુષ્ટિ થયેલ COVID-19 કેસોમાં સ્પષ્ટપણે ઘટાડો જોવા મળી રહ્યો છે. શું તમે એક્સ-અક્ષ વાંચી શકો છો? એક્સ-અક્ષ સમયનું પ્રતિનિધિત્વ કરે છે. સામાન્ય રીતે, તારીખો ડાબેથી જમણે વધશે. અહીં, આપણે X-અક્ષ પર થોડી સમયની મુસાફરી જોઈએ છીએ: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

રાહ જુઓ? શું? X-અક્ષ કાલક્રમિક રીતે ક્રમાંકિત નથી. તેથી, વલણ ગમે તેટલું સરસ લાગે, અમે કોઈ નિષ્કર્ષ દોરી શકતા નથી. જો તારીખો મંગાવવામાં આવે છે, તો કેસની સંખ્યા માટેના બાર કોઈપણ પ્રકારના વલણ કરતાં સૉટૂથ પેટર્ન વધુ દર્શાવે છે.

કૅલેન્ડર જે રીતે કરે છે તે રીતે તારીખોને સૉર્ટ કરવાનું અહીં સરળ ફિક્સ છે.

બિનપરંપરાગત રીતે ડેટા બતાવો

અમે બધા વ્યસ્ત છીએ. આપણા મગજે આપણને એવી ધારણાઓના આધારે ઝડપી નિર્ણય લેવાનું શીખવ્યું છે જે આપણા વિશ્વમાં સુસંગત છે. ઉદાહરણ તરીકે, મેં ક્યારેય જોયેલા દરેક આલેખ x- અને y- અક્ષ શૂન્ય અથવા સૌથી નીચા મૂલ્યો પર મીટિંગ દર્શાવે છે. આ ચાર્ટને સંક્ષિપ્તમાં જોતાં, તમે ફ્લોરિડાની અસર વિશે કયા તારણો દોરી શકો છો “તમારો ગ્રાઉન્ડ લો સ્ટેન્ડ."? મને તે સ્વીકારવામાં શરમ આવે છે, પરંતુ આ ગ્રાફે મને શરૂઆતમાં મૂર્ખ બનાવ્યો. તમારી આંખ સહેલાઇથી ટેક્સ્ટ અને ગ્રાફિકની મધ્યમાં તીર તરફ દોરવામાં આવે છે. આ ગ્રાફમાં ડાઉન ઉપર છે. તે જૂઠું ન હોઈ શકે - ડેટા ત્યાં બરાબર છે. પરંતુ, મારે વિચારવું પડશે કે તે છેતરવા માટે છે. જો તમે હજી સુધી તે જોયું નથી, તો y-અક્ષ પર શૂન્ય ટોચ પર છે. તેથી, જેમ જેમ ડેટા ટ્રેન્ડ ડાઉન થાય છે, તેનો અર્થ વધુ મૃત્યુ થાય છે. આ ચાર્ટ બતાવે છે કે હથિયારોનો ઉપયોગ કરીને હત્યાની સંખ્યા વધારો થયો 2005 પછી, વલણ ચાલુ દ્વારા સૂચવવામાં આવ્યું છે નીચે.

ડેટાને વધુ-સરળ બતાવો

જ્યારે વિશ્લેષકો સિમ્પસનના પેરાડોક્સનો લાભ લે છે ત્યારે ડેટાના અતિ-સરળીકરણનું એક ઉદાહરણ જોઈ શકાય છે. આ એક ઘટના છે જે ત્યારે થાય છે જ્યારે એકીકૃત ડેટા સબસેટમાં વિભાજિત કરવામાં આવે તેના કરતાં અલગ નિષ્કર્ષ દર્શાવતો દેખાય છે. ઉચ્ચ-સ્તરની એકંદર ટકાવારી જોતી વખતે આ ટ્રેપમાં પડવું સરળ છે. કામ પરના સિમ્પસનના વિરોધાભાસના સ્પષ્ટ ચિત્રોમાંથી એક સાથે સંબંધિત છે બેટિંગ સરેરાશ.  

અહીં આપણે જોઈએ છીએ કે ડેરેક જેટરની 1995 અને 1996 સીઝન માટે ડેવિડ જસ્ટિસ કરતાં વધુ એકંદર બેટિંગ સરેરાશ છે. વિરોધાભાસ ત્યારે આવે છે જ્યારે અમને ખ્યાલ આવે છે કે ન્યાયમૂર્તિએ જેટરને તે બંને વર્ષોની બેટિંગ સરેરાશમાં શ્રેષ્ઠ બનાવ્યા હતા. જો તમે ધ્યાનથી જોશો, તો એનો અર્થ થાય છે જ્યારે તમને ખ્યાલ આવે છે કે જેટર પાસે 4માં .1996 નીચી એવરેજથી આશરે 007 ગણા વધુ એટ-બેટ્સ (છેદ) હતા. જ્યારે, ન્યાયમાં એટ-બેટ્સની સંખ્યા આશરે 1996 ગણી હતી. 10 માં 003 ઉચ્ચ સરેરાશ.

પ્રેઝન્ટેશન સીધું દેખાય છે, પરંતુ સિમ્પસનના પેરાડોક્સ, જાણીજોઈને અથવા અજાણતાં, ખોટા તારણો તરફ દોરી ગયા છે. તાજેતરમાં, રસીઓ અને કોવિડ મૃત્યુદર સંબંધિત સમાચારોમાં અને સોશિયલ મીડિયા પર સિમ્પસનના વિરોધાભાસના ઉદાહરણો છે. એક ચાર્ટ 10-59 વર્ષની વયના લોકો માટે રસી અને રસી વગરના મૃત્યુદરની સરખામણી કરતો રેખા ગ્રાફ બતાવે છે. ચાર્ટ દર્શાવે છે કે રસી વગરના લોકોનો મૃત્યુદર સતત ઓછો હોય છે. અહિયાં શું થઇ રહ્યું છે?  

આ મુદ્દો આપણે બેટિંગ એવરેજ સાથે જોયેલો સમાન છે. આ કિસ્સામાં છેદ એ દરેક વય જૂથમાં વ્યક્તિઓની સંખ્યા છે. આલેખ એવા જૂથોને જોડે છે જેનાં વિવિધ પરિણામો હોય છે. જો આપણે વૃદ્ધ વય જૂથ, 50-59, અલગથી જોઈએ, તો આપણે જોઈએ છીએ કે રસીકરણનું ભાડું વધુ સારું છે. તેવી જ રીતે, જો આપણે 10-49 જોઈએ, તો આપણે એ પણ જોઈએ છીએ કે રસીકરણનું ભાડું વધુ સારું છે. વિરોધાભાસી રીતે, સંયુક્ત સમૂહને જોતા, રસી વિનાનું પરિણામ વધુ ખરાબ હોય તેવું લાગે છે. આ રીતે, તમે ડેટાનો ઉપયોગ કરીને વિપરીત દલીલો માટે કેસ બનાવવા માટે સક્ષમ છો.

ડેટા પક્ષપાતી છે

ડેટા હંમેશા વિશ્વાસ કરી શકાતો નથી. વૈજ્ઞાનિક સમુદાયમાં પણ, એક તૃતીયાંશથી વધુ સંશોધકોએ સ્વીકાર્યું "શંકાસ્પદ સંશોધન પદ્ધતિઓ."  અન્ય સંશોધન છેતરપિંડી ડિટેક્ટીવ કહે છે, “ડેટામાં ઘણી વધુ છેતરપિંડી થવાની સંભાવના છે – કોષ્ટકો, લાઇન ગ્રાફ્સ, સિક્વન્સિંગ ડેટા [- આપણે ખરેખર શોધી રહ્યા છીએ તેના કરતાં]. તેમના રસોડાના ટેબલ પર બેઠેલી કોઈપણ વ્યક્તિ સ્પ્રેડશીટમાં કેટલાક નંબરો મૂકી શકે છે અને એક લાઇન ગ્રાફ બનાવી શકે છે જે વિશ્વાસપાત્ર લાગે છે.”

આ પ્રથમ ઉદાહરણ એવું લાગે છે કે કોઈએ તે કર્યું છે. હું એમ નથી કહેતો કે આ છેતરપિંડી છે, પરંતુ એક સર્વેક્ષણ તરીકે, તે જાણકાર નિર્ણયમાં ફાળો આપતો કોઈપણ ડેટા જનરેટ કરતું નથી. એવું લાગે છે કે સર્વેક્ષણે ઉત્તરદાતાઓને ગેસ સ્ટેશન કોફી અથવા અન્ય કોઈ સંબંધિત વર્તમાન ઘટના વિશે તેમના અભિપ્રાય વિશે પૂછ્યું હતું. 

  1. સુપર્બ 
  2. ગ્રેટ
  3. બહુ સારું 

મેં દોષિત પક્ષના સંદર્ભો દૂર કરવા માટે ટ્વિટર પોસ્ટને ક્રોપ કરી છે, પરંતુ આ સર્વેક્ષણના અંતિમ પરિણામોનો વાસ્તવિક સંપૂર્ણ ચાર્ટ છે. આવા સર્વેક્ષણો અસામાન્ય નથી. દેખીતી રીતે, પ્રતિસાદોના પરિણામે ડેટામાંથી બનાવેલ કોઈપણ ચાર્ટ બતાવશે કે પ્રશ્નમાં રહેલી કોફી ચૂકી જવાની નથી.  

સમસ્યા એ છે કે જો તમને આ સર્વેક્ષણ આપવામાં આવ્યું હોત અને તમારી વિચારસરણીને અનુરૂપ પ્રતિસાદ મળ્યો ન હોત, તો તમે સર્વેને છોડી દેશો. કેવી રીતે અવિશ્વસનીય ડેટા બનાવી શકાય છે તેનું આ એક આત્યંતિક ઉદાહરણ હોઈ શકે છે. જો કે, નબળી સર્વેક્ષણ ડિઝાઇન, ઓછા પ્રતિસાદો તરફ દોરી શકે છે અને જેઓ પ્રતિસાદ આપે છે તેમનો એક જ અભિપ્રાય છે, તે માત્ર ડિગ્રીની બાબત છે. ડેટા પક્ષપાતી છે.

ડેટા પૂર્વગ્રહનું આ બીજું ઉદાહરણ “ની ફાઇલોમાંથી છે.સૌથી ખરાબ COVID 19 ગેરમાર્ગે દોરનાર ગ્રાફ. " 

ફરીથી, આ સૂક્ષ્મ છે અને સંપૂર્ણપણે સ્પષ્ટ નથી. બાર ગ્રાફ ફ્લોરિડામાં કાઉન્ટી માટે સમય જતાં સકારાત્મક COVID-19 કેસની ટકાવારીમાં એક સરળ - લગભગ ખૂબ જ સરળ - ઘટાડો દર્શાવે છે. તમે સરળતાથી નિષ્કર્ષ દોરી શકો છો કે કેસ ઘટી રહ્યા છે. તે સરસ છે, વિઝ્યુલાઇઝેશન ડેટાને ચોક્કસ રીતે રજૂ કરે છે. સમસ્યા ડેટામાં છે. તેથી, તે વધુ કપટી પૂર્વગ્રહ છે કારણ કે તમે તેને જોઈ શકતા નથી. તે ડેટામાં બેક થઈ ગયું છે. તમારે જે પ્રશ્નો પૂછવાની જરૂર છે, તેમાં સમાવેશ થાય છે, કોની કસોટી કરવામાં આવી રહી છે? બીજા શબ્દોમાં કહીએ તો, છેદ શું છે, અથવા વસ્તી જેની આપણે ટકાવારી જોઈ રહ્યા છીએ. ધારણા એ છે કે તે સમગ્ર વસ્તી છે, અથવા ઓછામાં ઓછું, એક પ્રતિનિધિ નમૂના છે.

જો કે, આ સમયગાળા દરમિયાન, આ કાઉન્ટીમાં, પરીક્ષણો માત્ર મર્યાદિત સંખ્યામાં લોકોને આપવામાં આવ્યા હતા. તેઓને કોવિડ જેવા લક્ષણો હોવા જોઈએ, અથવા તાજેતરમાં જ હોટ સ્પોટની યાદીમાં કોઈ દેશમાં પ્રવાસ કર્યો હતો. પરિણામોને ગૂંચવણમાં મૂકે છે તે હકીકત એ છે કે દરેક હકારાત્મક પરીક્ષણની ગણતરી કરવામાં આવી હતી અને દરેક નકારાત્મક પરીક્ષણની ગણતરી કરવામાં આવી હતી. સામાન્ય રીતે, જ્યારે કોઈ વ્યક્તિ સકારાત્મક પરીક્ષણ કરે છે, ત્યારે તેઓ ફરીથી પરીક્ષણ કરશે જ્યારે વાયરસ તેનો અભ્યાસક્રમ ચલાવશે અને નકારાત્મક પરીક્ષણ કરશે. તેથી, એક અર્થમાં, દરેક સકારાત્મક કેસ માટે, ત્યાં નકારાત્મક પરીક્ષણ કેસ છે જે તેને રદ કરે છે. મોટા ભાગના પરીક્ષણો નકારાત્મક છે અને દરેક વ્યક્તિના નકારાત્મક પરીક્ષણોની ગણતરી કરવામાં આવી હતી. તમે જોઈ શકો છો કે ડેટા કેવી રીતે પક્ષપાતી છે અને નિર્ણયો લેવા માટે ખાસ ઉપયોગી નથી. 

AI ઇનપુટ અને તાલીમ પક્ષપાતી છે

ઓછામાં ઓછા બે માર્ગો છે જેમાં AI પક્ષપાતી પરિણામો તરફ દોરી શકે છે: પક્ષપાતી ડેટાથી શરૂ કરીને, અથવા માન્ય ડેટાની પ્રક્રિયા કરવા માટે પક્ષપાતી અલ્ગોરિધમનો ઉપયોગ કરીને.  

પક્ષપાતી ઇનપુટ

આપણામાંના ઘણા લોકો એવી છાપ હેઠળ છે કે AI નંબરોને ક્રંચ કરવા, તેના અલ્ગોરિધમ્સ લાગુ કરવા અને ડેટાનું વિશ્વસનીય વિશ્લેષણ કરવા માટે વિશ્વાસ કરી શકાય છે. આર્ટિફિશિયલ ઇન્ટેલિજન્સ એટલી જ સ્માર્ટ બની શકે છે જેટલી તે પ્રશિક્ષિત છે. જો ડેટા કે જેના પર તે પ્રશિક્ષિત છે તે અપૂર્ણ છે, તો પરિણામો અથવા તારણો પર પણ વિશ્વાસ કરી શકાશે નહીં. સર્વેક્ષણ પૂર્વગ્રહના ઉપરના કેસની જેમ, ડેટા હોઈ શકે તેવી ઘણી રીતો છે પૂર્વગ્રહયુક્ત મશીન લર્નિંગમાં:.  

  • નમૂના પૂર્વગ્રહ - તાલીમ ડેટાસેટ સમગ્ર વસ્તીનું પ્રતિનિધિત્વ કરતું નથી.
  • બાકાત પૂર્વગ્રહ - કેટલીકવાર જે આઉટલીયર તરીકે દેખાય છે તે વાસ્તવમાં માન્ય હોય છે, અથવા, જ્યાં આપણે શું શામેલ કરવું તેના પર રેખા દોરીએ છીએ (ઝિપ કોડ, તારીખો, વગેરે).
  • માપન પૂર્વગ્રહ - સંમેલન એ હંમેશા મેનિસ્કસના મધ્ય અને નીચેથી માપવાનું છે, ઉદાહરણ તરીકે, જ્યારે વોલ્યુમેટ્રિક ફ્લાસ્ક અથવા ટેસ્ટ ટ્યુબમાં પ્રવાહીને માપવામાં આવે છે (પારા સિવાય.)
  • પૂર્વગ્રહને યાદ કરો - જ્યારે સંશોધન સહભાગીઓની યાદશક્તિ પર આધાર રાખે છે.
  • નિરીક્ષક પૂર્વગ્રહ - વૈજ્ઞાનિકો, બધા મનુષ્યોની જેમ, તેઓ શું જોવાની અપેક્ષા રાખે છે તે જોવા માટે વધુ વલણ ધરાવે છે.
  • લૈંગિક અને જાતિવાદી પૂર્વગ્રહ - જાતિ અથવા જાતિ વધુ- અથવા ઓછા-પ્રતિનિધિત્વિત હોઈ શકે છે.  
  • એસોસિએશન પૂર્વગ્રહ - ડેટા સ્ટીરિયોટાઇપ્સને મજબૂત બનાવે છે

AI વિશ્વસનીય પરિણામો પરત કરવા માટે, તેના તાલીમ ડેટાને વાસ્તવિક દુનિયાનું પ્રતિનિધિત્વ કરવાની જરૂર છે. અમે અગાઉના બ્લોગ લેખમાં ચર્ચા કરી છે તેમ, ડેટાની તૈયારી મહત્વપૂર્ણ છે અને અન્ય કોઈપણ ડેટા પ્રોજેક્ટની જેમ. અવિશ્વસનીય ડેટા મશીન લર્નિંગ સિસ્ટમને ખોટો પાઠ શીખવી શકે છે અને પરિણામે ખોટા નિષ્કર્ષ પર આવશે. તેણે કહ્યું, “બધો ડેટા પક્ષપાતી છે. આ પેરાનોઇયા નથી. આ હકીકત છે.” - ડૉ. સંજીવ એમ. નારાયણ, સ્ટેનફોર્ડ યુનિવર્સિટી સ્કૂલ ઓફ મેડિસિન.

તાલીમ માટે પક્ષપાતી ડેટાનો ઉપયોગ કરવાથી સંખ્યાબંધ નોંધપાત્ર AI નિષ્ફળતાઓ થઈ છે. (ઉદાહરણો અહીં અને અહીં, સંશોધન અહીં..)

પક્ષપાતી અલ્ગોરિધમ્સ

એલ્ગોરિધમ એ નિયમોનો સમૂહ છે જે ઇનપુટ સ્વીકારે છે અને વ્યવસાય સમસ્યાનો જવાબ આપવા માટે આઉટપુટ બનાવે છે. તેઓ ઘણીવાર સારી રીતે વ્યાખ્યાયિત નિર્ણય વૃક્ષો છો. અલ્ગોરિધમ્સ બ્લેક બોક્સ જેવા લાગે છે. કોઈને ખાતરી નથી હોતી કે તેઓ કેવી રીતે કામ કરે છે, ઘણી વાર, તે પણ નહીં કંપનીઓ જે તેનો ઉપયોગ કરે છે. ઓહ, અને તેઓ ઘણીવાર માલિકીનું હોય છે. તેમની રહસ્યમય અને જટિલ પ્રકૃતિ એ એક કારણ છે કે શા માટે પક્ષપાતી અલ્ગોરિધમ્સ આટલા કપટી છે. . 

મેડિસિન, એચઆર અથવા ફાઇનાન્સમાં AI અલ્ગોરિધમનો વિચાર કરો જે રેસને ધ્યાનમાં લે છે. જો જાતિ એક પરિબળ છે, તો અલ્ગોરિધમ વંશીય રીતે અંધ ન હોઈ શકે. આ સૈદ્ધાંતિક નથી. AI in નો ઉપયોગ કરીને વાસ્તવિક દુનિયામાં આવી સમસ્યાઓ શોધવામાં આવી છે ભરતી, રાઇડ-શેર, લોન એપ્લિકેશનઓ, અને કિડની ટ્રાન્સપ્લાન્ટ

બોટમ લાઇન એ છે કે જો તમારો ડેટા અથવા એલ્ગોરિધમ ખરાબ છે, નકામી કરતાં વધુ ખરાબ છે, તો તે જોખમી હોઈ શકે છે. એવી વસ્તુ છે જેમ કે "અલ્ગોરિધમિક ઓડિટ" ધ્યેય સંસ્થાઓને અલ્ગોરિધમથી સંબંધિત સંભવિત જોખમોને ઓળખવામાં મદદ કરવાનો છે કારણ કે તે ન્યાયીપણું, પૂર્વગ્રહ અને ભેદભાવ સાથે સંબંધિત છે. અન્યત્ર, ફેસબુક AI માં પૂર્વગ્રહ સામે લડવા માટે AI નો ઉપયોગ કરી રહ્યું છે.

લોકો પક્ષપાતી છે

અમારી પાસે સમીકરણની બંને બાજુ લોકો છે. લોકો વિશ્લેષણ તૈયાર કરી રહ્યા છે અને લોકો માહિતી મેળવી રહ્યા છે. સંશોધકો છે અને વાચકો છે. કોઈપણ સંચારમાં, ટ્રાન્સમિશન અથવા રિસેપ્શનમાં સમસ્યાઓ હોઈ શકે છે.

ઉદાહરણ તરીકે, હવામાન લો. "વરસાદની તક" નો અર્થ શું છે? પ્રથમ, જ્યારે હવામાનશાસ્ત્રીઓ કહે છે કે વરસાદની સંભાવના છે ત્યારે તેનો અર્થ શું છે? યુએસ સરકાર અનુસાર રાષ્ટ્રીય હવામાન સેવા, વરસાદની તક, અથવા જેને તેઓ પ્રૉબેબિલિટી ઑફ પ્રિસિપિટેશન (PoP) કહે છે, તે હવામાનની આગાહીમાં સૌથી ઓછા સમજી શકાય તેવા ઘટકોમાંનું એક છે. તેની પ્રમાણભૂત વ્યાખ્યા છે: "વરસાદની સંભાવના એ ફક્ત 0.01″ ઇંચ [sic] ની [sic] વધુ વરસાદની આંકડાકીય સંભાવના છે જે આપેલ સમયગાળામાં આપેલ આગાહી વિસ્તારમાં આપેલ વિસ્તાર પર છે." "આપેલ વિસ્તાર" એ આગાહી વિસ્તાર છે, અથવા broadકાસ્ટ વિસ્તાર. તેનો અર્થ એ છે કે વરસાદની સત્તાવાર સંભાવના એ વિશ્વાસ પર આધાર રાખે છે કે તે વિસ્તારમાં ક્યાંક વરસાદ પડશે અને તે વિસ્તારની ટકાવારી ભીની થશે. બીજા શબ્દોમાં કહીએ તો, જો હવામાનશાસ્ત્રીને વિશ્વાસ હોય કે આગાહી વિસ્તારમાં વરસાદ થવાનો છે (કોન્ફિડન્સ = 100%), તો PoP ​​એ વિસ્તારના તે ભાગને દર્શાવે છે કે જ્યાં વરસાદ થશે.  

પેરિસ સ્ટ્રીટ; વરસાદી દિવસ,ગુસ્તાવ કેલેબોટ્ટે (1848-1894) શિકાગો આર્ટ ઇન્સ્ટિટ્યૂટ પબ્લિક ડોમેન

વરસાદની સંભાવના આત્મવિશ્વાસ અને વિસ્તાર બંને પર આધાર રાખે છે. મને તે ખબર નહોતી. મને શંકા છે કે અન્ય લોકો પણ તે જાણતા નથી. લગભગ 75% વસ્તી ચોક્કસ રીતે સમજી શકતી નથી કે PoP ની ગણતરી કેવી રીતે કરવામાં આવે છે અથવા તેનો અર્થ શું છે. તો, શું આપણને મૂર્ખ બનાવવામાં આવે છે, અથવા, આ સમજણની સમસ્યા છે. ચાલો તેને વરસાદની ધારણા કહીએ. શું આપણે હવામાનની આગાહી કરનારને દોષ આપીએ છીએ? વાજબી બનવા માટે, ત્યાં કેટલાક છે મૂંઝવણ હવામાન આગાહીકારો વચ્ચે પણ. એકમાં મોજણીસર્વેક્ષણમાં 43% હવામાનશાસ્ત્રીઓએ જણાવ્યું હતું કે PoP ની વ્યાખ્યામાં ખૂબ જ ઓછી સુસંગતતા છે.

વિશ્લેષણ પોતે પક્ષપાતી છે

પાંચ પ્રભાવિત પરિબળોમાંથી, વિશ્લેષણ પોતે સૌથી આશ્ચર્યજનક હોઈ શકે છે. વૈજ્ઞાનિક સંશોધનમાં જેનું પરિણામ રિવ્યુ કરેલ પેપર પ્રકાશિત કરવામાં આવે છે, સામાન્ય રીતે એક સિદ્ધાંતની પૂર્વધારણા કરવામાં આવે છે, પૂર્વધારણાને ચકાસવા માટે પદ્ધતિઓ વ્યાખ્યાયિત કરવામાં આવે છે, ડેટા એકત્રિત કરવામાં આવે છે, પછી ડેટાનું વિશ્લેષણ કરવામાં આવે છે. જે પ્રકારનું વિશ્લેષણ કરવામાં આવે છે અને તે કેવી રીતે કરવામાં આવે છે તે નિષ્કર્ષને કેવી રીતે અસર કરે છે તે અંગે ઓછી પ્રશંસા કરવામાં આવે છે. અંદર કાગળ આ વર્ષની શરૂઆતમાં (જાન્યુઆરી 2022) પ્રકાશિત, ઈન્ટરનેશનલ જર્નલ ઑફ કેન્સરમાં, લેખકોએ મૂલ્યાંકન કર્યું કે શું રેન્ડમાઈઝ્ડ કન્ટ્રોલ્ડ ટ્રાયલ્સ અને પૂર્વવર્તી અવલોકન અભ્યાસના પરિણામો છે. તેમના તારણો નિષ્કર્ષ પર આવ્યા કે,

તુલનાત્મક અસરકારકતા સંશોધનમાં વિવિધ વિશ્લેષણાત્મક પસંદગીઓ દ્વારા, અમે વિપરીત પરિણામો ઉત્પન્ન કર્યા. અમારા પરિણામો સૂચવે છે કે કેટલાક પૂર્વવર્તી અવલોકનાત્મક અભ્યાસો દર્દીઓ માટે સારવારના પરિણામોમાં સુધારો શોધી શકે છે, જ્યારે અન્ય સમાન અભ્યાસો શોધી શકે છે કે તે ફક્ત વિશ્લેષણાત્મક પસંદગીઓના આધારે નથી.

ભૂતકાળમાં, વૈજ્ઞાનિક જર્નલનો લેખ વાંચતી વખતે, જો તમે મારા જેવા છો, તો તમે વિચાર્યું હશે કે પરિણામો અથવા તારણો ડેટા વિશે છે. હવે, એવું લાગે છે કે પરિણામો, અથવા પ્રારંભિક પૂર્વધારણાની પુષ્ટિ થાય છે કે નકારી કાઢવામાં આવે છે તે પણ વિશ્લેષણની પદ્ધતિ પર આધાર રાખે છે.

અન્ય અભ્યાસ સમાન પરિણામો મળ્યા. લેખ, ઘણા વિશ્લેષકો, એક ડેટા સેટ: વિશ્લેષણાત્મક પસંદગીઓમાં ભિન્નતા પરિણામોને કેવી રીતે અસર કરે છે તે પારદર્શક બનાવવું, વર્ણવે છે કે તેઓએ વિશ્લેષણ કરવા માટે 29 જુદી જુદી ટીમોને સમાન ડેટા સેટ કેવી રીતે આપ્યો. ડેટા વિશ્લેષણને ઘણીવાર કડક, સારી રીતે વ્યાખ્યાયિત પ્રક્રિયા તરીકે જોવામાં આવે છે જે એક જ નિષ્કર્ષ તરફ દોરી જાય છે.  

મેથોલોજિસ્ટના પ્રતિભાવો છતાં, એ હકીકતને નજરઅંદાજ કરવી સરળ છે કે પરિણામો પસંદ કરેલ વિશ્લેષણાત્મક વ્યૂહરચના પર આધાર રાખે છે, જે પોતે સિદ્ધાંત, ધારણાઓ અને પસંદગીના મુદ્દાઓથી ભરપૂર છે. ઘણા કિસ્સાઓમાં, સંશોધન પ્રશ્ન પર આધારિત ડેટાનું મૂલ્યાંકન કરવા માટે ઘણા વાજબી (અને ઘણા ગેરવાજબી) અભિગમો છે.

સંશોધકોએ માહિતીના પૃથ્થકરણને ક્રાઉડ-સોર્સ કર્યું અને એવા નિષ્કર્ષ પર આવ્યા કે તમામ સંશોધનમાં વ્યક્તિલક્ષી નિર્ણયોનો સમાવેશ થાય છે - જેમાં કયા પ્રકારનાં વિશ્લેષણનો ઉપયોગ કરવો તે સહિત - જે અભ્યાસના અંતિમ પરિણામને અસર કરી શકે છે.

બીજાની ભલામણ સંશોધક જેમણે ઉપરોક્ત અભ્યાસનું પૃથ્થકરણ કર્યું છે તેમણે નિર્ણયો લેવામાં અથવા તારણો દોરવા માટે એક જ કાગળનો ઉપયોગ કરતી વખતે સાવચેત રહેવું જોઈએ.

ઍનલિટિક્સમાં પૂર્વગ્રહને સંબોધિત કરવું

આનો અર્થ ફક્ત સાવધાનીની વાર્તા છે. જ્ઞાન આપણને કૌભાંડોમાં ફસાઈ જવાથી બચાવી શકે છે. સ્કેનર આપણને મૂર્ખ બનાવવા માટે ઉપયોગમાં લઈ શકે તેવી સંભવિત પદ્ધતિઓ વિશે જેટલી વધુ વાકેફ છે, તેટલી ઓછી શક્યતા છે કે આપણે કોઈ પિકપોકેટની ખોટી દિશા અથવા પોન્ઝી નાટકની સરળ વાતમાં લઈ જઈશું. તેથી તે સંભવિત પૂર્વગ્રહોને સમજવા અને ઓળખવા સાથે છે જે અમારા વિશ્લેષણને અસર કરે છે. જો આપણે સંભવિત પ્રભાવોથી વાકેફ હોઈએ, તો અમે વાર્તાને વધુ સારી રીતે રજૂ કરી શકીશું અને અંતે વધુ સારા નિર્ણયો લઈ શકીશું.  

BI/એનાલિટિક્સઅવર્ગીકૃત
શા માટે માઈક્રોસોફ્ટ એક્સેલ એ #1 વિશ્લેષણ સાધન છે
એક્સેલ એ #1 વિશ્લેષણ સાધન કેમ છે?

એક્સેલ એ #1 વિશ્લેષણ સાધન કેમ છે?

  તે સસ્તું અને સરળ છે. માઈક્રોસોફ્ટ એક્સેલ સ્પ્રેડશીટ સોફ્ટવેર કદાચ પહેલાથી જ બિઝનેસ યુઝરના કોમ્પ્યુટર પર ઇન્સ્ટોલ કરેલું છે. અને આજે ઘણા વપરાશકર્તાઓ હાઈસ્કૂલથી અથવા તો પહેલાથી જ Microsoft Office સોફ્ટવેરના સંપર્કમાં આવ્યા છે. આ ઘૂંટણિયે જેવો પ્રતિભાવ...

વધારે વાચો

BI/એનાલિટિક્સઅવર્ગીકૃત
તમારી આંતરદૃષ્ટિને અનક્લટર કરો: ઍનલિટિક્સ સ્પ્રિંગ ક્લીનિંગ માટે માર્ગદર્શિકા

તમારી આંતરદૃષ્ટિને અનક્લટર કરો: ઍનલિટિક્સ સ્પ્રિંગ ક્લીનિંગ માટે માર્ગદર્શિકા

તમારી આંતરદૃષ્ટિને અનક્લટર કરો ઍનલિટિક્સ સ્પ્રિંગ ક્લિનિંગ માટેની માર્ગદર્શિકા નવા વર્ષની ધમાકેદાર શરૂઆત થાય છે; વર્ષના અંતે અહેવાલો બનાવવામાં આવે છે અને તેની તપાસ કરવામાં આવે છે, અને પછી દરેક વ્યક્તિ એક સુસંગત કાર્ય શેડ્યૂલમાં સ્થાયી થાય છે. જેમ જેમ દિવસો લાંબા થાય છે અને વૃક્ષો અને ફૂલો ખીલે છે,...

વધારે વાચો

BI/એનાલિટિક્સઅવર્ગીકૃત
એનવાય સ્ટાઇલ વિ શિકાગો સ્ટાઇલ પિઝા: એક સ્વાદિષ્ટ ચર્ચા

એનવાય સ્ટાઇલ વિ શિકાગો સ્ટાઇલ પિઝા: એક સ્વાદિષ્ટ ચર્ચા

અમારી તૃષ્ણાઓને સંતોષતી વખતે, કેટલીક વસ્તુઓ પિઝાના ગરમ સ્લાઇસના આનંદને ટક્કર આપી શકે છે. ન્યૂ યોર્ક-શૈલી અને શિકાગો-શૈલીના પિઝા વચ્ચેની ચર્ચાએ દાયકાઓથી ઉત્કટ ચર્ચાઓ જગાવી છે. દરેક શૈલીની પોતાની આગવી વિશેષતાઓ અને સમર્પિત ચાહકો હોય છે....

વધારે વાચો

BI/એનાલિટિક્સકોગ્નોસ Analyનલિટિક્સ
કોગ્નોસ ક્વેરી સ્ટુડિયો
તમારા વપરાશકર્તાઓને તેમનો ક્વેરી સ્ટુડિયો જોઈએ છે

તમારા વપરાશકર્તાઓને તેમનો ક્વેરી સ્ટુડિયો જોઈએ છે

IBM કોગ્નોસ એનાલિટિક્સ 12 ના પ્રકાશન સાથે, ક્વેરી સ્ટુડિયો અને એનાલિસિસ સ્ટુડિયોના લાંબા સમયથી જાહેર કરાયેલ અવમૂલ્યનને અંતે તે સ્ટુડિયોને બાદ કરતાં કોગ્નોસ એનાલિટિક્સના સંસ્કરણ સાથે વિતરિત કરવામાં આવ્યું હતું. જ્યારે આમાં રોકાયેલા મોટાભાગના લોકો માટે આ આશ્ચર્યજનક ન હોવું જોઈએ...

વધારે વાચો

BI/એનાલિટિક્સઅવર્ગીકૃત
શું ટેલર સ્વિફ્ટ ઇફેક્ટ વાસ્તવિક છે?

શું ટેલર સ્વિફ્ટ ઇફેક્ટ વાસ્તવિક છે?

કેટલાક વિવેચકો સૂચવે છે કે તેણી સુપર બાઉલ ટિકિટના ભાવમાં વધારો કરી રહી છે આ સપ્તાહના સુપર બાઉલ એ ટેલિવિઝન ઇતિહાસમાં ટોચની 3 સૌથી વધુ જોવાયેલી ઇવેન્ટ્સમાંની એક બનવાની અપેક્ષા છે. સંભવતઃ ગયા વર્ષના રેકોર્ડ-સેટિંગ નંબરો કરતાં વધુ અને કદાચ 1969ના ચંદ્ર કરતાં પણ વધુ...

વધારે વાચો

BI/એનાલિટિક્સ
એનાલિટિક્સ કેટલોગ - એનાલિટિક્સ ઇકોસિસ્ટમમાં ઉભરતો સ્ટાર

એનાલિટિક્સ કેટલોગ - એનાલિટિક્સ ઇકોસિસ્ટમમાં ઉભરતો સ્ટાર

પરિચય એક ચીફ ટેક્નોલોજી ઓફિસર (CTO) તરીકે, હું હંમેશા એવી ઉભરતી ટેક્નોલોજીની શોધમાં રહું છું જે આપણે એનાલિટિક્સનો સંપર્ક કરવાની રીતને બદલીએ છીએ. આવી જ એક ટેક્નોલોજી કે જેણે છેલ્લાં કેટલાંક વર્ષોમાં મારું ધ્યાન ખેંચ્યું છે અને તેમાં પુષ્કળ વચન છે તે છે એનાલિટિક્સ...

વધારે વાચો