એનાલિટિક્સ જૂઠાણું
વિશ્લેષણનો પૂર્વગ્રહ
માર્ક ટ્વેઈને ચર્ચાસ્પદ રીતે કંઈક એવું કહ્યું હતું કે, “ત્રણ પ્રકારના જૂઠાણાં છે: જૂઠ, તિરસ્કૃત અસત્ય અને ઍનલિટિક્સ. "
અમે ધ્યાનમાં લઈએ છીએ કે એનાલિટિક્સ અમને ઉપયોગી, પગલાં લેવા યોગ્ય આંતરદૃષ્ટિ આપે છે. આપણે જે ઘણી વાર સમજી શકતા નથી તે એ છે કે આપણા પોતાના અને અન્ય લોકોના પક્ષપાત સૌથી અત્યાધુનિક સોફ્ટવેર અને સિસ્ટમો દ્વારા પણ આપેલા જવાબોને કેવી રીતે પ્રભાવિત કરે છે. કેટલીકવાર, અમારી સાથે અપ્રમાણિક રીતે ચાલાકી થઈ શકે છે, પરંતુ, વધુ સામાન્ય રીતે, તે સૂક્ષ્મ અને બેભાન પૂર્વગ્રહો હોઈ શકે છે જે અમારા વિશ્લેષણમાં ઘૂસી જાય છે. પક્ષપાતી વિશ્લેષણ પાછળની પ્રેરણા અનેકગણી છે. કેટલીકવાર વિજ્ઞાન પાસેથી આપણે જે નિષ્પક્ષ પરિણામોની અપેક્ષા રાખીએ છીએ તે 1) ડેટા કેવી રીતે રજૂ કરવામાં આવે છે તેની સૂક્ષ્મ પસંદગીઓ, 2) અસંગત અથવા બિન-પ્રતિનિધિ ડેટા, 3) AI સિસ્ટમ કેવી રીતે પ્રશિક્ષિત થાય છે, 4) સંશોધકોની અજ્ઞાનતા, અક્ષમતા અથવા અન્ય પ્રયાસોથી પ્રભાવિત થાય છે. વાર્તા કહેવા માટે, 5) વિશ્લેષણ પોતે.
પ્રસ્તુતિ પક્ષપાતી છે
કેટલાક જૂઠાણાં અન્ય કરતાં શોધવામાં સરળ છે. જ્યારે તમે જાણો છો કે શું જોવાનું છે ત્યારે તમે સંભવિત રીતે વધુ સરળતાથી શોધી શકો છો ભ્રામક ગ્રાફ અને ચાર્ટ.
ત્યાં ઓછામાં ઓછા છે ભ્રામક રીતે ડેટા પ્રદર્શિત કરવાની પાંચ રીતો: 1) મર્યાદિત ડેટા સેટ બતાવો, 2). અસંબંધિત સહસંબંધો બતાવો, 3) અચોક્કસ રીતે ડેટા બતાવો, 4) બિનપરંપરાગત રીતે ડેટા બતાવો, અથવા 5). ડેટા વધુ-સરળ બતાવો.
મર્યાદિત ડેટા સેટ બતાવો
ડેટાને મર્યાદિત કરવો, અથવા ડેટાના બિન-રેન્ડમ વિભાગને હાથથી પસંદ કરવાથી ઘણીવાર એવી વાર્તા કહી શકાય છે જે મોટા ચિત્ર સાથે સુસંગત નથી. જ્યારે વિશ્લેષક મોટા જૂથનું પ્રતિનિધિત્વ કરવા માટે બિન-પ્રતિનિધિ નમૂનાનો ઉપયોગ કરે છે ત્યારે ખરાબ સેમ્પલિંગ અથવા ચેરી પસંદ કરવામાં આવે છે.
માર્ચ 2020 માં, જ્યોર્જિયાના જાહેર આરોગ્ય વિભાગ આ ચાર્ટ તેના દૈનિક સ્થિતિ અહેવાલના ભાગ રૂપે પ્રકાશિત કર્યો. તે ખરેખર જવાબો કરતાં વધુ પ્રશ્નો ઉભા કરે છે.
એક વસ્તુ જે ખૂટે છે તે સંદર્ભ છે. ઉદાહરણ તરીકે, દરેક વય જૂથ માટે વસ્તીની ટકાવારી કેટલી છે તે જાણવું મદદરૂપ થશે. સરળ દેખાતા પાઇ ચાર્ટ સાથેનો બીજો મુદ્દો અસમાન વય જૂથો છે. 0-17માં 18 વર્ષ છે, 18-59માં 42 છે, 60+ ઓપન એન્ડેડ છે, પરંતુ લગભગ 40 વર્ષ છે. એકલા આ ચાર્ટને જોતાં નિષ્કર્ષ એ છે કે મોટાભાગના કેસો 18-59 વર્ષની વય જૂથના છે. 60+ વર્ષની વય જૂથ COVID કેસથી ઓછી ગંભીર રીતે પ્રભાવિત હોય તેવું લાગે છે. પરંતુ આ આખી વાર્તા નથી.
સરખામણી માટે, આ અલગ ડેટા પર સેટ કરો સીડીસી વેબ સાઇટ દરેક વય શ્રેણીમાં રહેલી યુએસ વસ્તીની ટકાવારી પરના વધારાના ડેટા સાથે વય જૂથ દ્વારા COVID કેસનો ચાર્ટ.
આ વધુ સારું છે. અમારી પાસે વધુ સંદર્ભ છે. આપણે જોઈ શકીએ છીએ કે 18-29, 30-39, 40-49 વય જૂથોમાં વસ્તીમાં વય જૂથની ટકાવારી કરતાં કેસોની ટકાવારી વધુ છે. હજુ પણ કેટલાક અસમાન વય જૂથો છે. શા માટે 16-17 એક અલગ વય જૂથ છે? હજુ પણ આ આખી વાર્તા નથી, પરંતુ પંડિતોએ આનાથી ઓછા પર કોલમ લખી છે, આગાહીઓ કરી છે અને આદેશો આપ્યા છે. દેખીતી રીતે, કોવિડ સાથે, વય ઉપરાંત ઘણા બધા ફેરફારો છે જે હકારાત્મક કેસ તરીકે ગણવામાં આવે છે તે અસર કરે છે: રસીકરણની સ્થિતિ, પરીક્ષણોની ઉપલબ્ધતા, પરીક્ષણની સંખ્યા, સહવર્તી રોગો અને અન્ય ઘણા બધા. કેસોની સંખ્યા, પોતે, અપૂર્ણ ચિત્ર પ્રદાન કરે છે. મોટાભાગના નિષ્ણાતો મૃત્યુની સંખ્યા, અથવા દર 100,000 વસ્તી દીઠ મૃત્યુની ટકાવારી, અથવા કેસ-મૃત્યુને પણ જુએ છે તે જોવા માટે કે COVID દરેક વય જૂથને કેવી રીતે અસર કરે છે.
અસંબંધિત સહસંબંધો બતાવો
દેખીતી રીતે, ત્યાં એ છે મજબૂત સહસંબંધ વિજ્ઞાન, અવકાશ અને ટેકનોલોજી પર યુએસ ખર્ચ અને ફાંસી, ગળું દબાવીને અને ગૂંગળામણ દ્વારા આત્મહત્યાની સંખ્યા વચ્ચે. સહસંબંધ 99.79% છે, લગભગ સંપૂર્ણ મેચ.
જો કે, કોણ એવો કેસ કરશે કે આ કોઈક રીતે સંબંધિત છે, અથવા એક બીજાનું કારણ બને છે? અન્ય ઓછા આત્યંતિક ઉદાહરણો છે, પરંતુ ઓછા બનાવટી નથી. સ્ક્રિપ્સ નેશનલ સ્પેલિંગ બીના લેટર્સ ઇન વિનિંગ વર્ડ અને વેનોમસ સ્પાઈડર્સ દ્વારા માર્યા ગયેલા લોકોની સંખ્યા વચ્ચે સમાન મજબૂત સંબંધ છે. સંયોગ? તમે નક્કી કરો.
આ ડેટાને ચાર્ટ કરવાની બીજી રીત જે ઓછી ગેરમાર્ગે દોરનારી હોઈ શકે છે તે બંને Y-અક્ષો પર શૂન્યનો સમાવેશ કરવાનો છે.
અચોક્કસ રીતે ડેટા બતાવો
પ્રતિ ખરાબ રીતે ડેટા કેવી રીતે પ્રદર્શિત કરવો, યુએસ સ્ટેટ ઑફ જ્યોર્જિયાએ સૌથી વધુ પુષ્ટિ થયેલ COVID-5 કેસ સાથે ટોચની 19 કાઉન્ટીઓ રજૂ કરી છે.
કાયદેસર લાગે છે, અધિકાર? પુષ્ટિ થયેલ COVID-19 કેસોમાં સ્પષ્ટપણે ઘટાડો જોવા મળી રહ્યો છે. શું તમે એક્સ-અક્ષ વાંચી શકો છો? એક્સ-અક્ષ સમયનું પ્રતિનિધિત્વ કરે છે. સામાન્ય રીતે, તારીખો ડાબેથી જમણે વધશે. અહીં, આપણે X-અક્ષ પર થોડી સમયની મુસાફરી જોઈએ છીએ:
4/28/2020
4/27/2020
4/29/2020
5/1/2020
4/30/2020
5/4/2020
5/6/2020
5/5/2020
5/2/22020 ...
રાહ જુઓ? શું? X-અક્ષ કાલક્રમિક રીતે ક્રમાંકિત નથી. તેથી, વલણ ગમે તેટલું સરસ લાગે, અમે કોઈ નિષ્કર્ષ દોરી શકતા નથી. જો તારીખો મંગાવવામાં આવે છે, તો કેસની સંખ્યા માટેના બાર કોઈપણ પ્રકારના વલણ કરતાં સૉટૂથ પેટર્ન વધુ દર્શાવે છે.
કૅલેન્ડર જે રીતે કરે છે તે રીતે તારીખોને સૉર્ટ કરવાનું અહીં સરળ ફિક્સ છે.
બિનપરંપરાગત રીતે ડેટા બતાવો
અમે બધા વ્યસ્ત છીએ. આપણા મગજે આપણને એવી ધારણાઓના આધારે ઝડપી નિર્ણય લેવાનું શીખવ્યું છે જે આપણા વિશ્વમાં સુસંગત છે. ઉદાહરણ તરીકે, મેં ક્યારેય જોયેલા દરેક આલેખ x- અને y- અક્ષ શૂન્ય અથવા સૌથી નીચા મૂલ્યો પર મીટિંગ દર્શાવે છે. આ ચાર્ટને સંક્ષિપ્તમાં જોતાં, તમે ફ્લોરિડાની અસર વિશે કયા તારણો દોરી શકો છો “તમારો ગ્રાઉન્ડ લો સ્ટેન્ડ."? મને તે સ્વીકારવામાં શરમ આવે છે, પરંતુ આ ગ્રાફે મને શરૂઆતમાં મૂર્ખ બનાવ્યો. તમારી આંખ સહેલાઇથી ટેક્સ્ટ અને ગ્રાફિકની મધ્યમાં તીર તરફ દોરવામાં આવે છે. આ ગ્રાફમાં ડાઉન ઉપર છે. તે જૂઠું ન હોઈ શકે - ડેટા ત્યાં બરાબર છે. પરંતુ, મારે વિચારવું પડશે કે તે છેતરવા માટે છે. જો તમે હજી સુધી તે જોયું નથી, તો y-અક્ષ પર શૂન્ય ટોચ પર છે. તેથી, જેમ જેમ ડેટા ટ્રેન્ડ ડાઉન થાય છે, તેનો અર્થ વધુ મૃત્યુ થાય છે. આ ચાર્ટ બતાવે છે કે હથિયારોનો ઉપયોગ કરીને હત્યાની સંખ્યા વધારો થયો 2005 પછી, વલણ ચાલુ દ્વારા સૂચવવામાં આવ્યું છે નીચે.
ડેટાને વધુ-સરળ બતાવો
જ્યારે વિશ્લેષકો સિમ્પસનના પેરાડોક્સનો લાભ લે છે ત્યારે ડેટાના અતિ-સરળીકરણનું એક ઉદાહરણ જોઈ શકાય છે. આ એક ઘટના છે જે ત્યારે થાય છે જ્યારે એકીકૃત ડેટા સબસેટમાં વિભાજિત કરવામાં આવે તેના કરતાં અલગ નિષ્કર્ષ દર્શાવતો દેખાય છે. ઉચ્ચ-સ્તરની એકંદર ટકાવારી જોતી વખતે આ ટ્રેપમાં પડવું સરળ છે. કામ પરના સિમ્પસનના વિરોધાભાસના સ્પષ્ટ ચિત્રોમાંથી એક સાથે સંબંધિત છે બેટિંગ સરેરાશ.
અહીં આપણે જોઈએ છીએ કે ડેરેક જેટરની 1995 અને 1996 સીઝન માટે ડેવિડ જસ્ટિસ કરતાં વધુ એકંદર બેટિંગ સરેરાશ છે. વિરોધાભાસ ત્યારે આવે છે જ્યારે અમને ખ્યાલ આવે છે કે ન્યાયમૂર્તિએ જેટરને તે બંને વર્ષોની બેટિંગ સરેરાશમાં શ્રેષ્ઠ બનાવ્યા હતા. જો તમે ધ્યાનથી જોશો, તો એનો અર્થ થાય છે જ્યારે તમને ખ્યાલ આવે છે કે જેટર પાસે 4માં .1996 નીચી એવરેજથી આશરે 007 ગણા વધુ એટ-બેટ્સ (છેદ) હતા. જ્યારે, ન્યાયમાં એટ-બેટ્સની સંખ્યા આશરે 1996 ગણી હતી. 10 માં 003 ઉચ્ચ સરેરાશ.
પ્રેઝન્ટેશન સીધું દેખાય છે, પરંતુ સિમ્પસનના પેરાડોક્સ, જાણીજોઈને અથવા અજાણતાં, ખોટા તારણો તરફ દોરી ગયા છે. તાજેતરમાં, રસીઓ અને કોવિડ મૃત્યુદર સંબંધિત સમાચારોમાં અને સોશિયલ મીડિયા પર સિમ્પસનના વિરોધાભાસના ઉદાહરણો છે. એક ચાર્ટ 10-59 વર્ષની વયના લોકો માટે રસી અને રસી વગરના મૃત્યુદરની સરખામણી કરતો રેખા ગ્રાફ બતાવે છે. ચાર્ટ દર્શાવે છે કે રસી વગરના લોકોનો મૃત્યુદર સતત ઓછો હોય છે. અહિયાં શું થઇ રહ્યું છે?
આ મુદ્દો આપણે બેટિંગ એવરેજ સાથે જોયેલો સમાન છે. આ કિસ્સામાં છેદ એ દરેક વય જૂથમાં વ્યક્તિઓની સંખ્યા છે. આલેખ એવા જૂથોને જોડે છે જેનાં વિવિધ પરિણામો હોય છે. જો આપણે વૃદ્ધ વય જૂથ, 50-59, અલગથી જોઈએ, તો આપણે જોઈએ છીએ કે રસીકરણનું ભાડું વધુ સારું છે. તેવી જ રીતે, જો આપણે 10-49 જોઈએ, તો આપણે એ પણ જોઈએ છીએ કે રસીકરણનું ભાડું વધુ સારું છે. વિરોધાભાસી રીતે, સંયુક્ત સમૂહને જોતા, રસી વિનાનું પરિણામ વધુ ખરાબ હોય તેવું લાગે છે. આ રીતે, તમે ડેટાનો ઉપયોગ કરીને વિપરીત દલીલો માટે કેસ બનાવવા માટે સક્ષમ છો.
ડેટા પક્ષપાતી છે
ડેટા હંમેશા વિશ્વાસ કરી શકાતો નથી. વૈજ્ઞાનિક સમુદાયમાં પણ, એક તૃતીયાંશથી વધુ સંશોધકોએ સ્વીકાર્યું "શંકાસ્પદ સંશોધન પદ્ધતિઓ." અન્ય સંશોધન છેતરપિંડી ડિટેક્ટીવ કહે છે, “ડેટામાં ઘણી વધુ છેતરપિંડી થવાની સંભાવના છે – કોષ્ટકો, લાઇન ગ્રાફ્સ, સિક્વન્સિંગ ડેટા [- આપણે ખરેખર શોધી રહ્યા છીએ તેના કરતાં]. તેમના રસોડાના ટેબલ પર બેઠેલી કોઈપણ વ્યક્તિ સ્પ્રેડશીટમાં કેટલાક નંબરો મૂકી શકે છે અને એક લાઇન ગ્રાફ બનાવી શકે છે જે વિશ્વાસપાત્ર લાગે છે.”
આ પ્રથમ ઉદાહરણ એવું લાગે છે કે કોઈએ તે કર્યું છે. હું એમ નથી કહેતો કે આ છેતરપિંડી છે, પરંતુ એક સર્વેક્ષણ તરીકે, તે જાણકાર નિર્ણયમાં ફાળો આપતો કોઈપણ ડેટા જનરેટ કરતું નથી. એવું લાગે છે કે સર્વેક્ષણે ઉત્તરદાતાઓને ગેસ સ્ટેશન કોફી અથવા અન્ય કોઈ સંબંધિત વર્તમાન ઘટના વિશે તેમના અભિપ્રાય વિશે પૂછ્યું હતું.
- સુપર્બ
- ગ્રેટ
- બહુ સારું
મેં દોષિત પક્ષના સંદર્ભો દૂર કરવા માટે ટ્વિટર પોસ્ટને ક્રોપ કરી છે, પરંતુ આ સર્વેક્ષણના અંતિમ પરિણામોનો વાસ્તવિક સંપૂર્ણ ચાર્ટ છે. આવા સર્વેક્ષણો અસામાન્ય નથી. દેખીતી રીતે, પ્રતિસાદોના પરિણામે ડેટામાંથી બનાવેલ કોઈપણ ચાર્ટ બતાવશે કે પ્રશ્નમાં રહેલી કોફી ચૂકી જવાની નથી.
સમસ્યા એ છે કે જો તમને આ સર્વેક્ષણ આપવામાં આવ્યું હોત અને તમારી વિચારસરણીને અનુરૂપ પ્રતિસાદ મળ્યો ન હોત, તો તમે સર્વેને છોડી દેશો. કેવી રીતે અવિશ્વસનીય ડેટા બનાવી શકાય છે તેનું આ એક આત્યંતિક ઉદાહરણ હોઈ શકે છે. જો કે, નબળી સર્વેક્ષણ ડિઝાઇન, ઓછા પ્રતિસાદો તરફ દોરી શકે છે અને જેઓ પ્રતિસાદ આપે છે તેમનો એક જ અભિપ્રાય છે, તે માત્ર ડિગ્રીની બાબત છે. ડેટા પક્ષપાતી છે.
ડેટા પૂર્વગ્રહનું આ બીજું ઉદાહરણ “ની ફાઇલોમાંથી છે.સૌથી ખરાબ COVID 19 ગેરમાર્ગે દોરનાર ગ્રાફ. "
ફરીથી, આ સૂક્ષ્મ છે અને સંપૂર્ણપણે સ્પષ્ટ નથી. બાર ગ્રાફ ફ્લોરિડામાં કાઉન્ટી માટે સમય જતાં સકારાત્મક COVID-19 કેસની ટકાવારીમાં એક સરળ - લગભગ ખૂબ જ સરળ - ઘટાડો દર્શાવે છે. તમે સરળતાથી નિષ્કર્ષ દોરી શકો છો કે કેસ ઘટી રહ્યા છે. તે સરસ છે, વિઝ્યુલાઇઝેશન ડેટાને ચોક્કસ રીતે રજૂ કરે છે. સમસ્યા ડેટામાં છે. તેથી, તે વધુ કપટી પૂર્વગ્રહ છે કારણ કે તમે તેને જોઈ શકતા નથી. તે ડેટામાં બેક થઈ ગયું છે. તમારે જે પ્રશ્નો પૂછવાની જરૂર છે, તેમાં સમાવેશ થાય છે, કોની કસોટી કરવામાં આવી રહી છે? બીજા શબ્દોમાં કહીએ તો, છેદ શું છે, અથવા વસ્તી જેની આપણે ટકાવારી જોઈ રહ્યા છીએ. ધારણા એ છે કે તે સમગ્ર વસ્તી છે, અથવા ઓછામાં ઓછું, એક પ્રતિનિધિ નમૂના છે.
જો કે, આ સમયગાળા દરમિયાન, આ કાઉન્ટીમાં, પરીક્ષણો માત્ર મર્યાદિત સંખ્યામાં લોકોને આપવામાં આવ્યા હતા. તેઓને કોવિડ જેવા લક્ષણો હોવા જોઈએ, અથવા તાજેતરમાં જ હોટ સ્પોટની યાદીમાં કોઈ દેશમાં પ્રવાસ કર્યો હતો. પરિણામોને ગૂંચવણમાં મૂકે છે તે હકીકત એ છે કે દરેક હકારાત્મક પરીક્ષણની ગણતરી કરવામાં આવી હતી અને દરેક નકારાત્મક પરીક્ષણની ગણતરી કરવામાં આવી હતી. સામાન્ય રીતે, જ્યારે કોઈ વ્યક્તિ સકારાત્મક પરીક્ષણ કરે છે, ત્યારે તેઓ ફરીથી પરીક્ષણ કરશે જ્યારે વાયરસ તેનો અભ્યાસક્રમ ચલાવશે અને નકારાત્મક પરીક્ષણ કરશે. તેથી, એક અર્થમાં, દરેક સકારાત્મક કેસ માટે, ત્યાં નકારાત્મક પરીક્ષણ કેસ છે જે તેને રદ કરે છે. મોટા ભાગના પરીક્ષણો નકારાત્મક છે અને દરેક વ્યક્તિના નકારાત્મક પરીક્ષણોની ગણતરી કરવામાં આવી હતી. તમે જોઈ શકો છો કે ડેટા કેવી રીતે પક્ષપાતી છે અને નિર્ણયો લેવા માટે ખાસ ઉપયોગી નથી.
AI ઇનપુટ અને તાલીમ પક્ષપાતી છે
ઓછામાં ઓછા બે માર્ગો છે જેમાં AI પક્ષપાતી પરિણામો તરફ દોરી શકે છે: પક્ષપાતી ડેટાથી શરૂ કરીને, અથવા માન્ય ડેટાની પ્રક્રિયા કરવા માટે પક્ષપાતી અલ્ગોરિધમનો ઉપયોગ કરીને.
પક્ષપાતી ઇનપુટ
આપણામાંના ઘણા લોકો એવી છાપ હેઠળ છે કે AI નંબરોને ક્રંચ કરવા, તેના અલ્ગોરિધમ્સ લાગુ કરવા અને ડેટાનું વિશ્વસનીય વિશ્લેષણ કરવા માટે વિશ્વાસ કરી શકાય છે. આર્ટિફિશિયલ ઇન્ટેલિજન્સ એટલી જ સ્માર્ટ બની શકે છે જેટલી તે પ્રશિક્ષિત છે. જો ડેટા કે જેના પર તે પ્રશિક્ષિત છે તે અપૂર્ણ છે, તો પરિણામો અથવા તારણો પર પણ વિશ્વાસ કરી શકાશે નહીં. સર્વેક્ષણ પૂર્વગ્રહના ઉપરના કેસની જેમ, ડેટા હોઈ શકે તેવી ઘણી રીતો છે પૂર્વગ્રહયુક્ત મશીન લર્નિંગમાં:.
- નમૂના પૂર્વગ્રહ - તાલીમ ડેટાસેટ સમગ્ર વસ્તીનું પ્રતિનિધિત્વ કરતું નથી.
- બાકાત પૂર્વગ્રહ - કેટલીકવાર જે આઉટલીયર તરીકે દેખાય છે તે વાસ્તવમાં માન્ય હોય છે, અથવા, જ્યાં આપણે શું શામેલ કરવું તેના પર રેખા દોરીએ છીએ (ઝિપ કોડ, તારીખો, વગેરે).
- માપન પૂર્વગ્રહ - સંમેલન એ હંમેશા મેનિસ્કસના મધ્ય અને નીચેથી માપવાનું છે, ઉદાહરણ તરીકે, જ્યારે વોલ્યુમેટ્રિક ફ્લાસ્ક અથવા ટેસ્ટ ટ્યુબમાં પ્રવાહીને માપવામાં આવે છે (પારા સિવાય.)
- પૂર્વગ્રહને યાદ કરો - જ્યારે સંશોધન સહભાગીઓની યાદશક્તિ પર આધાર રાખે છે.
- નિરીક્ષક પૂર્વગ્રહ - વૈજ્ઞાનિકો, બધા મનુષ્યોની જેમ, તેઓ શું જોવાની અપેક્ષા રાખે છે તે જોવા માટે વધુ વલણ ધરાવે છે.
- લૈંગિક અને જાતિવાદી પૂર્વગ્રહ - જાતિ અથવા જાતિ વધુ- અથવા ઓછા-પ્રતિનિધિત્વિત હોઈ શકે છે.
- એસોસિએશન પૂર્વગ્રહ - ડેટા સ્ટીરિયોટાઇપ્સને મજબૂત બનાવે છે
AI વિશ્વસનીય પરિણામો પરત કરવા માટે, તેના તાલીમ ડેટાને વાસ્તવિક દુનિયાનું પ્રતિનિધિત્વ કરવાની જરૂર છે. અમે અગાઉના બ્લોગ લેખમાં ચર્ચા કરી છે તેમ, ડેટાની તૈયારી મહત્વપૂર્ણ છે અને અન્ય કોઈપણ ડેટા પ્રોજેક્ટની જેમ. અવિશ્વસનીય ડેટા મશીન લર્નિંગ સિસ્ટમને ખોટો પાઠ શીખવી શકે છે અને પરિણામે ખોટા નિષ્કર્ષ પર આવશે. તેણે કહ્યું, “બધો ડેટા પક્ષપાતી છે. આ પેરાનોઇયા નથી. આ હકીકત છે.” - ડૉ. સંજીવ એમ. નારાયણ, સ્ટેનફોર્ડ યુનિવર્સિટી સ્કૂલ ઓફ મેડિસિન.
તાલીમ માટે પક્ષપાતી ડેટાનો ઉપયોગ કરવાથી સંખ્યાબંધ નોંધપાત્ર AI નિષ્ફળતાઓ થઈ છે. (ઉદાહરણો અહીં અને અહીં, સંશોધન અહીં..)
પક્ષપાતી અલ્ગોરિધમ્સ
એલ્ગોરિધમ એ નિયમોનો સમૂહ છે જે ઇનપુટ સ્વીકારે છે અને વ્યવસાય સમસ્યાનો જવાબ આપવા માટે આઉટપુટ બનાવે છે. તેઓ ઘણીવાર સારી રીતે વ્યાખ્યાયિત નિર્ણય વૃક્ષો છો. અલ્ગોરિધમ્સ બ્લેક બોક્સ જેવા લાગે છે. કોઈને ખાતરી નથી હોતી કે તેઓ કેવી રીતે કામ કરે છે, ઘણી વાર, તે પણ નહીં કંપનીઓ જે તેનો ઉપયોગ કરે છે. ઓહ, અને તેઓ ઘણીવાર માલિકીનું હોય છે. તેમની રહસ્યમય અને જટિલ પ્રકૃતિ એ એક કારણ છે કે શા માટે પક્ષપાતી અલ્ગોરિધમ્સ આટલા કપટી છે. .
મેડિસિન, એચઆર અથવા ફાઇનાન્સમાં AI અલ્ગોરિધમનો વિચાર કરો જે રેસને ધ્યાનમાં લે છે. જો જાતિ એક પરિબળ છે, તો અલ્ગોરિધમ વંશીય રીતે અંધ ન હોઈ શકે. આ સૈદ્ધાંતિક નથી. AI in નો ઉપયોગ કરીને વાસ્તવિક દુનિયામાં આવી સમસ્યાઓ શોધવામાં આવી છે ભરતી, રાઇડ-શેર, લોન એપ્લિકેશનઓ, અને કિડની ટ્રાન્સપ્લાન્ટ.
બોટમ લાઇન એ છે કે જો તમારો ડેટા અથવા એલ્ગોરિધમ ખરાબ છે, નકામી કરતાં વધુ ખરાબ છે, તો તે જોખમી હોઈ શકે છે. એવી વસ્તુ છે જેમ કે "અલ્ગોરિધમિક ઓડિટ" ધ્યેય સંસ્થાઓને અલ્ગોરિધમથી સંબંધિત સંભવિત જોખમોને ઓળખવામાં મદદ કરવાનો છે કારણ કે તે ન્યાયીપણું, પૂર્વગ્રહ અને ભેદભાવ સાથે સંબંધિત છે. અન્યત્ર, ફેસબુક AI માં પૂર્વગ્રહ સામે લડવા માટે AI નો ઉપયોગ કરી રહ્યું છે.
લોકો પક્ષપાતી છે
અમારી પાસે સમીકરણની બંને બાજુ લોકો છે. લોકો વિશ્લેષણ તૈયાર કરી રહ્યા છે અને લોકો માહિતી મેળવી રહ્યા છે. સંશોધકો છે અને વાચકો છે. કોઈપણ સંચારમાં, ટ્રાન્સમિશન અથવા રિસેપ્શનમાં સમસ્યાઓ હોઈ શકે છે.
ઉદાહરણ તરીકે, હવામાન લો. "વરસાદની તક" નો અર્થ શું છે? પ્રથમ, જ્યારે હવામાનશાસ્ત્રીઓ કહે છે કે વરસાદની સંભાવના છે ત્યારે તેનો અર્થ શું છે? યુએસ સરકાર અનુસાર રાષ્ટ્રીય હવામાન સેવા, વરસાદની તક, અથવા જેને તેઓ પ્રૉબેબિલિટી ઑફ પ્રિસિપિટેશન (PoP) કહે છે, તે હવામાનની આગાહીમાં સૌથી ઓછા સમજી શકાય તેવા ઘટકોમાંનું એક છે. તેની પ્રમાણભૂત વ્યાખ્યા છે: "વરસાદની સંભાવના એ ફક્ત 0.01″ ઇંચ [sic] ની [sic] વધુ વરસાદની આંકડાકીય સંભાવના છે જે આપેલ સમયગાળામાં આપેલ આગાહી વિસ્તારમાં આપેલ વિસ્તાર પર છે." "આપેલ વિસ્તાર" એ આગાહી વિસ્તાર છે, અથવા broadકાસ્ટ વિસ્તાર. તેનો અર્થ એ છે કે વરસાદની સત્તાવાર સંભાવના એ વિશ્વાસ પર આધાર રાખે છે કે તે વિસ્તારમાં ક્યાંક વરસાદ પડશે અને તે વિસ્તારની ટકાવારી ભીની થશે. બીજા શબ્દોમાં કહીએ તો, જો હવામાનશાસ્ત્રીને વિશ્વાસ હોય કે આગાહી વિસ્તારમાં વરસાદ થવાનો છે (કોન્ફિડન્સ = 100%), તો PoP એ વિસ્તારના તે ભાગને દર્શાવે છે કે જ્યાં વરસાદ થશે.
પેરિસ સ્ટ્રીટ; વરસાદી દિવસ,ગુસ્તાવ કેલેબોટ્ટે (1848-1894) શિકાગો આર્ટ ઇન્સ્ટિટ્યૂટ પબ્લિક ડોમેન
વરસાદની સંભાવના આત્મવિશ્વાસ અને વિસ્તાર બંને પર આધાર રાખે છે. મને તે ખબર નહોતી. મને શંકા છે કે અન્ય લોકો પણ તે જાણતા નથી. લગભગ 75% વસ્તી ચોક્કસ રીતે સમજી શકતી નથી કે PoP ની ગણતરી કેવી રીતે કરવામાં આવે છે અથવા તેનો અર્થ શું છે. તો, શું આપણને મૂર્ખ બનાવવામાં આવે છે, અથવા, આ સમજણની સમસ્યા છે. ચાલો તેને વરસાદની ધારણા કહીએ. શું આપણે હવામાનની આગાહી કરનારને દોષ આપીએ છીએ? વાજબી બનવા માટે, ત્યાં કેટલાક છે મૂંઝવણ હવામાન આગાહીકારો વચ્ચે પણ. એકમાં મોજણીસર્વેક્ષણમાં 43% હવામાનશાસ્ત્રીઓએ જણાવ્યું હતું કે PoP ની વ્યાખ્યામાં ખૂબ જ ઓછી સુસંગતતા છે.
વિશ્લેષણ પોતે પક્ષપાતી છે
પાંચ પ્રભાવિત પરિબળોમાંથી, વિશ્લેષણ પોતે સૌથી આશ્ચર્યજનક હોઈ શકે છે. વૈજ્ઞાનિક સંશોધનમાં જેનું પરિણામ રિવ્યુ કરેલ પેપર પ્રકાશિત કરવામાં આવે છે, સામાન્ય રીતે એક સિદ્ધાંતની પૂર્વધારણા કરવામાં આવે છે, પૂર્વધારણાને ચકાસવા માટે પદ્ધતિઓ વ્યાખ્યાયિત કરવામાં આવે છે, ડેટા એકત્રિત કરવામાં આવે છે, પછી ડેટાનું વિશ્લેષણ કરવામાં આવે છે. જે પ્રકારનું વિશ્લેષણ કરવામાં આવે છે અને તે કેવી રીતે કરવામાં આવે છે તે નિષ્કર્ષને કેવી રીતે અસર કરે છે તે અંગે ઓછી પ્રશંસા કરવામાં આવે છે. અંદર કાગળ આ વર્ષની શરૂઆતમાં (જાન્યુઆરી 2022) પ્રકાશિત, ઈન્ટરનેશનલ જર્નલ ઑફ કેન્સરમાં, લેખકોએ મૂલ્યાંકન કર્યું કે શું રેન્ડમાઈઝ્ડ કન્ટ્રોલ્ડ ટ્રાયલ્સ અને પૂર્વવર્તી અવલોકન અભ્યાસના પરિણામો છે. તેમના તારણો નિષ્કર્ષ પર આવ્યા કે,
તુલનાત્મક અસરકારકતા સંશોધનમાં વિવિધ વિશ્લેષણાત્મક પસંદગીઓ દ્વારા, અમે વિપરીત પરિણામો ઉત્પન્ન કર્યા. અમારા પરિણામો સૂચવે છે કે કેટલાક પૂર્વવર્તી અવલોકનાત્મક અભ્યાસો દર્દીઓ માટે સારવારના પરિણામોમાં સુધારો શોધી શકે છે, જ્યારે અન્ય સમાન અભ્યાસો શોધી શકે છે કે તે ફક્ત વિશ્લેષણાત્મક પસંદગીઓના આધારે નથી.
ભૂતકાળમાં, વૈજ્ઞાનિક જર્નલનો લેખ વાંચતી વખતે, જો તમે મારા જેવા છો, તો તમે વિચાર્યું હશે કે પરિણામો અથવા તારણો ડેટા વિશે છે. હવે, એવું લાગે છે કે પરિણામો, અથવા પ્રારંભિક પૂર્વધારણાની પુષ્ટિ થાય છે કે નકારી કાઢવામાં આવે છે તે પણ વિશ્લેષણની પદ્ધતિ પર આધાર રાખે છે.
અન્ય અભ્યાસ સમાન પરિણામો મળ્યા. લેખ, ઘણા વિશ્લેષકો, એક ડેટા સેટ: વિશ્લેષણાત્મક પસંદગીઓમાં ભિન્નતા પરિણામોને કેવી રીતે અસર કરે છે તે પારદર્શક બનાવવું, વર્ણવે છે કે તેઓએ વિશ્લેષણ કરવા માટે 29 જુદી જુદી ટીમોને સમાન ડેટા સેટ કેવી રીતે આપ્યો. ડેટા વિશ્લેષણને ઘણીવાર કડક, સારી રીતે વ્યાખ્યાયિત પ્રક્રિયા તરીકે જોવામાં આવે છે જે એક જ નિષ્કર્ષ તરફ દોરી જાય છે.
મેથોલોજિસ્ટના પ્રતિભાવો છતાં, એ હકીકતને નજરઅંદાજ કરવી સરળ છે કે પરિણામો પસંદ કરેલ વિશ્લેષણાત્મક વ્યૂહરચના પર આધાર રાખે છે, જે પોતે સિદ્ધાંત, ધારણાઓ અને પસંદગીના મુદ્દાઓથી ભરપૂર છે. ઘણા કિસ્સાઓમાં, સંશોધન પ્રશ્ન પર આધારિત ડેટાનું મૂલ્યાંકન કરવા માટે ઘણા વાજબી (અને ઘણા ગેરવાજબી) અભિગમો છે.
સંશોધકોએ માહિતીના પૃથ્થકરણને ક્રાઉડ-સોર્સ કર્યું અને એવા નિષ્કર્ષ પર આવ્યા કે તમામ સંશોધનમાં વ્યક્તિલક્ષી નિર્ણયોનો સમાવેશ થાય છે - જેમાં કયા પ્રકારનાં વિશ્લેષણનો ઉપયોગ કરવો તે સહિત - જે અભ્યાસના અંતિમ પરિણામને અસર કરી શકે છે.
બીજાની ભલામણ સંશોધક જેમણે ઉપરોક્ત અભ્યાસનું પૃથ્થકરણ કર્યું છે તેમણે નિર્ણયો લેવામાં અથવા તારણો દોરવા માટે એક જ કાગળનો ઉપયોગ કરતી વખતે સાવચેત રહેવું જોઈએ.
ઍનલિટિક્સમાં પૂર્વગ્રહને સંબોધિત કરવું
આનો અર્થ ફક્ત સાવધાનીની વાર્તા છે. જ્ઞાન આપણને કૌભાંડોમાં ફસાઈ જવાથી બચાવી શકે છે. સ્કેનર આપણને મૂર્ખ બનાવવા માટે ઉપયોગમાં લઈ શકે તેવી સંભવિત પદ્ધતિઓ વિશે જેટલી વધુ વાકેફ છે, તેટલી ઓછી શક્યતા છે કે આપણે કોઈ પિકપોકેટની ખોટી દિશા અથવા પોન્ઝી નાટકની સરળ વાતમાં લઈ જઈશું. તેથી તે સંભવિત પૂર્વગ્રહોને સમજવા અને ઓળખવા સાથે છે જે અમારા વિશ્લેષણને અસર કરે છે. જો આપણે સંભવિત પ્રભાવોથી વાકેફ હોઈએ, તો અમે વાર્તાને વધુ સારી રીતે રજૂ કરી શકીશું અને અંતે વધુ સારા નિર્ણયો લઈ શકીશું.