Analytics అబద్ధం

by Aug 31, 2022BI/Analytics0 వ్యాఖ్యలు

Analytics అబద్ధం

విశ్లేషణ యొక్క పక్షపాతం

 

మార్క్ ట్వైన్ చర్చనీయాంశంగా ఇలా అన్నాడు, “మూడు రకాల అబద్ధాలు ఉన్నాయి: అబద్ధాలు, హేయమైన అబద్ధాలు మరియు విశ్లేషణలు. " 

విశ్లేషణలు మాకు ఉపయోగకరమైన, క్రియాత్మకమైన అంతర్దృష్టులను ఇస్తాయని మేము తేలికగా తీసుకుంటాము. అత్యంత అధునాతన సాఫ్ట్‌వేర్ మరియు సిస్టమ్‌ల ద్వారా కూడా మనం ఇచ్చే సమాధానాలను మన స్వంత పక్షపాతాలు మరియు ఇతరుల పక్షపాతాలు ఎలా ప్రభావితం చేస్తాయనేది మనం తరచుగా గుర్తించలేము. కొన్నిసార్లు, మనం నిజాయితీగా తారుమారు చేయబడవచ్చు, కానీ, సాధారణంగా, మన విశ్లేషణలలోకి ప్రవేశించే సూక్ష్మ మరియు అపస్మారక పక్షపాతాలు కావచ్చు. పక్షపాత విశ్లేషణల వెనుక ప్రేరణ చాలా రెట్లు ఉంటుంది. కొన్నిసార్లు సైన్స్ నుండి మనం ఆశించే నిష్పాక్షిక ఫలితాలు 1) డేటాను ఎలా సమర్పించాలో సూక్ష్మమైన ఎంపికలు, 2) అస్థిరమైన లేదా ప్రాతినిధ్యం లేని డేటా, 3) AI సిస్టమ్‌లు ఎలా శిక్షణ పొందుతాయి, 4) పరిశోధకులు లేదా ప్రయత్నించేవారి అజ్ఞానం, అసమర్థత వంటి వాటి ద్వారా ప్రభావితమవుతుంది. కథ చెప్పడానికి, 5) విశ్లేషణ కూడా.    

ప్రెజెంటేషన్ పక్షపాతంగా ఉంది

కొన్ని అబద్ధాలను ఇతరులకన్నా సులభంగా గుర్తించవచ్చు. దేని కోసం వెతకాలో మీకు తెలిసినప్పుడు మీరు మరింత సులభంగా సంభావ్యంగా గుర్తించవచ్చు తప్పుదారి పట్టించే గ్రాఫ్‌లు మరియు చార్ట్‌లు. 

కనీసం ఉన్నాయి డేటాను తప్పుదారి పట్టించే విధంగా ప్రదర్శించడానికి ఐదు మార్గాలు: 1) పరిమిత డేటా సెట్‌ను చూపండి, 2). సంబంధం లేని సహసంబంధాలను చూపండి, 3) డేటాను తప్పుగా చూపండి, 4) డేటాను అసాధారణంగా చూపండి లేదా 5). డేటాను అతి-సులభతరం చూపండి.

పరిమిత డేటా సెట్‌ను చూపండి

డేటాను పరిమితం చేయడం లేదా డేటాలోని యాదృచ్ఛికం కాని విభాగాన్ని చేతితో ఎంచుకోవడం ద్వారా తరచుగా పెద్ద చిత్రానికి అనుగుణంగా లేని కథనాన్ని చెప్పవచ్చు. చెడ్డ నమూనా లేదా చెర్రీ పికింగ్, పెద్ద సమూహాన్ని సూచించడానికి విశ్లేషకుడు ప్రతినిధి కాని నమూనాను ఉపయోగించినప్పుడు. 

మార్చి 2020 లో, జార్జియా ప్రజారోగ్య శాఖ దాని రోజువారీ స్థితి నివేదికలో భాగంగా ఈ చార్ట్‌ను ప్రచురించింది. ఇది వాస్తవానికి సమాధానాల కంటే ఎక్కువ ప్రశ్నలను లేవనెత్తుతుంది.  

తప్పిపోయిన వాటిలో సందర్భం ఒకటి. ఉదాహరణకు, ప్రతి వయస్సు వర్గానికి జనాభా శాతం ఎంత ఉందో తెలుసుకోవడం ఉపయోగకరంగా ఉంటుంది. సరళంగా కనిపించే పై చార్ట్‌తో మరొక సమస్య అసమాన వయస్సు సమూహాలు. 0-17కి 18 ఏళ్లు, 18-59కి 42, 60+ ఓపెన్ ఎండ్, కానీ దాదాపు 40 ఏళ్లు ఉన్నాయి. ఈ చార్ట్‌ను బట్టి చూస్తే, అత్యధిక కేసులు 18-59 ఏళ్ల మధ్య వయస్కులే. 60 ఏళ్లు పైబడిన వారు కోవిడ్ కేసుల ప్రభావం తక్కువగా ఉన్నట్లు కనిపిస్తోంది. కానీ ఇది మొత్తం కథ కాదు.

పోలిక కోసం, ఈ విభిన్న డేటా సెట్ చేయబడింది CDC వెబ్‌సైట్ ప్రతి వయస్సు పరిధిలో ఉన్న US జనాభా శాతంపై అదనపు డేటాతో వయస్సువారీగా COVID కేసులను చార్ట్ చేస్తుంది.  

ఇది బాగుంది. మాకు మరింత సందర్భం ఉంది. 18-29, 30-39, 40-49 వయస్సు గల వారందరూ జనాభాలో వయస్సు గల వారి శాతం కంటే ఎక్కువ శాతం కేసులను కలిగి ఉన్నారని మనం చూడవచ్చు. ఇప్పటికీ కొన్ని అసమాన వయస్సు సమూహాలు ఉన్నాయి. ఎందుకు 16-17 ప్రత్యేక వయస్సు సమూహం? ఇప్పటికీ ఇది మొత్తం కథ కాదు, కానీ పండితులు దీని కంటే తక్కువ కాలమ్‌లు వ్రాసారు, అంచనాలు మరియు ఆదేశాలు ఇచ్చారు. సహజంగానే, కోవిడ్‌తో, వయస్సుతో పాటు అనేక వేరియబుల్స్ ఉన్నాయి, ఇవి పాజిటివ్ కేసుగా పరిగణించబడడాన్ని ప్రభావితం చేస్తాయి: టీకా స్థితి, పరీక్షల లభ్యత, ఎన్నిసార్లు పరీక్షించారు, కొమొర్బిడిటీలు మరియు అనేక ఇతరాలు. కేసుల సంఖ్య, అసంపూర్ణ చిత్రాన్ని అందిస్తుంది. చాలా మంది నిపుణులు మరణాల సంఖ్య లేదా ప్రతి 100,000 జనాభాకు మరణాల శాతాలు లేదా ప్రతి వయస్సు వారిని COVID ఎలా ప్రభావితం చేస్తుందో చూడటానికి మరణాల శాతాలను కూడా పరిశీలిస్తారు.

సంబంధం లేని సహసంబంధాలను చూపండి

సహజంగానే, ఒక ఉంది బలమైన సహసంబంధం సైన్స్, స్పేస్ మరియు టెక్నాలజీపై US ఖర్చులు మరియు ఉరి, గొంతు పిసికి చంపడం మరియు ఊపిరాడక ఆత్మహత్యల సంఖ్య మధ్య. సహసంబంధం 99.79%, దాదాపు ఖచ్చితమైన మ్యాచ్.  

అయితే, ఇవి ఏదో ఒకవిధంగా సంబంధం కలిగి ఉన్నాయని లేదా ఒకదానికొకటి కారణమని ఎవరు చేస్తారు? ఇతర తక్కువ తీవ్రమైన ఉదాహరణలు ఉన్నాయి, కానీ తక్కువ నకిలీ కాదు. లెటర్స్ ఇన్ విన్నింగ్ వర్డ్ ఆఫ్ స్క్రిప్స్ నేషనల్ స్పెల్లింగ్ బీ మరియు వెనమస్ స్పైడర్స్ చేత చంపబడిన వ్యక్తుల సంఖ్య మధ్య ఇలాంటి బలమైన సహసంబంధం ఉంది. కాకతాళీయమా? నువ్వు నిర్ణయించు.

తక్కువ తప్పుదారి పట్టించే ఈ డేటాను చార్ట్ చేయడానికి మరొక మార్గం Y-యాక్సెస్‌ల రెండింటిలోనూ సున్నాని చేర్చడం.

డేటాను తప్పుగా చూపించు

నుండి డేటాను చెడుగా ఎలా ప్రదర్శించాలి, US స్టేట్ ఆఫ్ జార్జియా అత్యధికంగా ధృవీకరించబడిన COVID-5 కేసులతో టాప్ 19 కౌంటీలను అందించింది.

సక్రమంగా కనిపిస్తోంది, సరియైనదా? ధృవీకరించబడిన COVID-19 కేసుల తగ్గుదల ధోరణి స్పష్టంగా ఉంది. మీరు X- అక్షాన్ని చదవగలరా? X- అక్షం సమయాన్ని సూచిస్తుంది. సాధారణంగా, తేదీలు ఎడమ నుండి కుడికి పెరుగుతాయి. ఇక్కడ, మేము X- అక్షం మీద కొద్దిగా సమయ ప్రయాణాన్ని చూస్తాము: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

వేచి ఉండాలా? ఏమిటి? X-అక్షం కాలక్రమానుసారంగా క్రమబద్ధీకరించబడలేదు. కాబట్టి, ట్రెండ్ కనిపించినంత బాగుంది, మేము ఎటువంటి ముగింపులు తీసుకోలేము. తేదీలను ఆర్డర్ చేసినట్లయితే, కేసుల సంఖ్య కోసం బార్‌లు ఏ రకమైన ట్రెండ్‌ల కంటే ఎక్కువ రంపపు నమూనాను చూపుతాయి.

క్యాలెండర్ చేసే విధంగా తేదీలను క్రమబద్ధీకరించడం ఇక్కడ సులభమైన పరిష్కారం.

డేటాను అసాధారణంగా చూపించు

మేమంతా బిజీగా ఉన్నాం. మన ప్రపంచంలో స్థిరంగా ఉన్న ఊహల ఆధారంగా త్వరిత తీర్పులు ఇవ్వడానికి మన మెదడు మనకు నేర్పింది. ఉదాహరణకు, నేను చూసిన ప్రతి గ్రాఫ్ x- మరియు y- అక్షాలు సున్నా వద్ద లేదా అత్యల్ప విలువలతో సమావేశాన్ని చూపుతుంది. ఈ చార్ట్‌ను క్లుప్తంగా చూస్తే, ఫ్లోరిడా ప్రభావం గురించి మీరు ఎలాంటి ముగింపులు తీసుకోవచ్చు “స్టాండ్ యువర్ గ్రౌండ్ లా.”? నేను దానిని అంగీకరించడానికి సిగ్గుపడుతున్నాను, కానీ ఈ గ్రాఫ్ మొదట నన్ను మోసం చేసింది. గ్రాఫిక్ మధ్యలో ఉన్న టెక్స్ట్ మరియు బాణం వైపు మీ కన్ను సౌకర్యవంతంగా డ్రా అవుతుంది. ఈ గ్రాఫ్‌లో డౌన్ అప్ ఉంది. ఇది అబద్ధం కాకపోవచ్చు - డేటా మొత్తం అక్కడే ఉంది. కానీ, మోసం చేయడానికే అని అనుకోవాలి. మీరు దీన్ని ఇంకా చూడకుంటే, y-యాక్సిస్‌పై సున్నా ఎగువన ఉంటుంది. కాబట్టి, డేటా తగ్గుముఖం పట్టడంతో, ఎక్కువ మరణాలు సంభవిస్తాయి. ఈ చార్ట్ తుపాకీలను ఉపయోగించి హత్యల సంఖ్యను చూపుతుంది పెరిగిన 2005 తర్వాత, కొనసాగుతున్న ట్రెండ్ ద్వారా సూచించబడింది డౌన్.

అతి సరళీకృత డేటాను చూపండి

విశ్లేషకులు సింప్సన్ పారడాక్స్ ప్రయోజనాన్ని పొందినప్పుడు డేటా యొక్క అతి-సులభీకరణకు ఒక ఉదాహరణ చూడవచ్చు. ఇది సమిష్టి డేటా ఉపసమితులుగా వేరు చేయబడినప్పుడు కాకుండా భిన్నమైన ముగింపును ప్రదర్శించినట్లు కనిపించినప్పుడు సంభవించే దృగ్విషయం. అధిక-స్థాయి సమగ్ర శాతాలను చూసినప్పుడు ఈ ఉచ్చులో పడటం సులభం. పని వద్ద సింప్సన్ యొక్క పారడాక్స్ యొక్క స్పష్టమైన దృష్టాంతాలలో ఒకటి సంబంధించినది బ్యాటింగ్ సగటులు.  

డెరెక్ జెటర్ 1995 మరియు 1996 సీజన్లలో డేవిడ్ జస్టిస్ కంటే ఎక్కువ మొత్తం బ్యాటింగ్ సగటును కలిగి ఉన్నాడని ఇక్కడ మనం చూస్తాము. ఆ రెండు సంవత్సరాల్లో బ్యాటింగ్ యావరేజ్‌లో జస్టిస్ జెటర్‌కు అత్యుత్తమంగా నిలిచాడని మనం గ్రహించినప్పుడు పారడాక్స్ వస్తుంది. మీరు జాగ్రత్తగా పరిశీలిస్తే, 4లో .1996 తక్కువ సగటు వద్ద 007లో జెటర్ దాదాపు 1996x ఎక్కువ అట్-బ్యాట్‌లను (హారం) కలిగి ఉన్నారని మీరు గ్రహించినప్పుడు అర్థమవుతుంది. అయితే, జస్టిస్ వద్ద బ్యాట్‌ల సంఖ్య దాదాపు 10 రెట్లు మాత్రమే ఉంది. 003లో 1995 అధిక సగటు.

ప్రదర్శన సూటిగా కనిపిస్తుంది, కానీ సింప్సన్ యొక్క పారడాక్స్, తెలివిగా లేదా తెలియకుండానే, తప్పు నిర్ధారణలకు దారితీసింది. ఇటీవల, వ్యాక్సిన్‌లు మరియు COVID మరణాలకు సంబంధించిన వార్తలు మరియు సోషల్ మీడియాలో సింప్సన్ పారడాక్స్ ఉదాహరణలు ఉన్నాయి. ఒకటి చార్ట్ 10-59 సంవత్సరాల వయస్సు గల వ్యక్తులకు టీకాలు వేసిన మరియు టీకాలు వేయని వారి మధ్య మరణాల రేటును పోల్చిన లైన్ గ్రాఫ్ చూపిస్తుంది. టీకాలు వేయనివారు స్థిరంగా తక్కువ మరణాల రేటును కలిగి ఉంటారని చార్ట్ నిరూపిస్తుంది. ఏమి జరుగుతుంది ఇక్కడ?  

బ్యాటింగ్ సగటుతో మనం చూసే సమస్య లాగానే ఉంటుంది. ఈ సందర్భంలో హారం అనేది ప్రతి వయస్సులో ఉన్న వ్యక్తుల సంఖ్య. గ్రాఫ్ విభిన్న ఫలితాలను కలిగి ఉన్న సమూహాలను మిళితం చేస్తుంది. మేము 50-59 సంవత్సరాల వయస్సు గల వృద్ధులను విడిగా పరిశీలిస్తే, టీకాలు వేసిన వారి ఛార్జీలు మెరుగ్గా ఉన్నాయని మేము చూస్తాము. అదేవిధంగా, మేము 10-49ని పరిశీలిస్తే, టీకాలు వేసిన ధర మెరుగ్గా ఉందని కూడా చూస్తాము. వైరుధ్యంగా, మిశ్రమ సెట్‌ను చూసినప్పుడు, టీకాలు వేయనివి అధ్వాన్నమైన ఫలితాన్ని కలిగి ఉన్నట్లు కనిపిస్తాయి. ఈ విధంగా, మీరు డేటాను ఉపయోగించి వ్యతిరేక ఆర్గ్యుమెంట్‌ల కోసం ఒక కేసును తయారు చేయగలరు.

డేటా పక్షపాతంగా ఉంటుంది

డేటాను ఎల్లప్పుడూ విశ్వసించలేము. సైంటిఫిక్ కమ్యూనిటీలో కూడా, సర్వేలో పాల్గొన్న మూడవ వంతు మంది పరిశోధకులు అంగీకరించారు "ప్రశ్నార్థక పరిశోధన పద్ధతులు."  మరో పరిశోధన మోసం డిటెక్టివ్ "డేటాలో చాలా ఎక్కువ మోసం ఉంది - టేబుల్‌లు, లైన్ గ్రాఫ్‌లు, సీక్వెన్సింగ్ డేటా [- మనం వాస్తవంగా కనుగొన్న దానికంటే]. వారి కిచెన్ టేబుల్ వద్ద కూర్చున్న ఎవరైనా స్ప్రెడ్‌షీట్‌లో కొన్ని సంఖ్యలను ఉంచవచ్చు మరియు నమ్మదగినదిగా కనిపించే లైన్ గ్రాఫ్‌ను రూపొందించవచ్చు.

ఈ మొదటి ఉదాహరణ ఎవరో అలా చేసినట్లు కనిపిస్తోంది. ఇది మోసం అని నేను చెప్పడం లేదు, కానీ ఒక సర్వేగా, ఇది సమాచారంతో కూడిన నిర్ణయానికి దోహదపడే ఏ డేటాను రూపొందించదు. గ్యాస్ స్టేషన్ కాఫీ లేదా ఇతర సంబంధిత ప్రస్తుత ఈవెంట్ గురించి వారి అభిప్రాయాల గురించి సర్వే ప్రతివాదులను అడిగినట్లు కనిపిస్తోంది. 

  1. అద్భుతమైన 
  2. గ్రేట్
  3. చాలా మంచి 

నేను దోషి పక్షానికి సంబంధించిన సూచనలను తీసివేయడానికి ట్విట్టర్ పోస్ట్‌ను కత్తిరించాను, అయితే ఇది సర్వే యొక్క తుది ఫలితాల యొక్క వాస్తవ మొత్తం చార్ట్. ఇలాంటి సర్వేలు మాములుగా లేవు. సహజంగానే, ప్రతిస్పందనల ఫలితంగా డేటా నుండి సృష్టించబడిన ఏదైనా చార్ట్ ప్రశ్నలోని కాఫీని మిస్ చేయకూడదని చూపుతుంది.  

సమస్య ఏమిటంటే, మీకు ఈ సర్వే అందించబడి, మీ ఆలోచనకు సరిపోయే ప్రతిస్పందన కనుగొనబడకపోతే, మీరు సర్వేను దాటవేస్తారు. నమ్మదగని డేటాను ఎలా సృష్టించవచ్చో చెప్పడానికి ఇది ఒక తీవ్రమైన ఉదాహరణ కావచ్చు. పేలవమైన సర్వే డిజైన్, అయితే, తక్కువ ప్రతిస్పందనలకు దారి తీస్తుంది మరియు ప్రతిస్పందించే వారికి ఒకే అభిప్రాయం ఉంటుంది, ఇది కేవలం డిగ్రీకి సంబంధించిన విషయం. డేటా పక్షపాతంగా ఉంది.

డేటా బయాస్ యొక్క ఈ రెండవ ఉదాహరణ "" ఫైల్స్ నుండిచెత్త COVID 19 తప్పుదారి పట్టించే గ్రాఫ్‌లు. " 

మళ్ళీ, ఇది సూక్ష్మమైనది మరియు పూర్తిగా స్పష్టంగా లేదు. బార్ గ్రాఫ్ ఫ్లోరిడాలోని ఒక కౌంటీలో కాలక్రమేణా సానుకూల COVID-19 కేసుల శాతంలో మృదువైన - దాదాపు చాలా మృదువైనది - క్షీణతను చూపుతుంది. కేసులు తగ్గుముఖం పడతాయని మీరు సులభంగా తేల్చవచ్చు. చాలా బాగుంది, విజువలైజేషన్ ఖచ్చితంగా డేటాను సూచిస్తుంది. సమస్య డేటాలో ఉంది. కాబట్టి, మీరు దీన్ని చూడలేరు కాబట్టి ఇది మరింత కృత్రిమ పక్షపాతం. ఇది డేటాలో బేక్ చేయబడింది. మీరు అడగవలసిన ప్రశ్నలు, చేర్చండి, ఎవరు పరీక్షించబడుతున్నారు? మరో మాటలో చెప్పాలంటే, హారం ఎంత, లేదా జనాభా శాతాన్ని చూస్తున్నాం. ఊహ అది మొత్తం జనాభా, లేదా కనీసం, ఒక ప్రతినిధి నమూనా.

అయితే, ఈ కాలంలో, ఈ కౌంటీలో, పరిమిత సంఖ్యలో వ్యక్తులకు మాత్రమే పరీక్షలు ఇవ్వబడ్డాయి. వారు COVID-వంటి లక్షణాలను కలిగి ఉండాలి లేదా హాట్ స్పాట్‌ల జాబితాలోని ఒక దేశానికి ఇటీవల ప్రయాణించారు. అదనంగా, ఫలితాలను గందరగోళానికి గురిచేస్తున్నది ఏమిటంటే, ప్రతి పాజిటివ్ పరీక్ష లెక్కించబడుతుంది మరియు ప్రతి ప్రతికూల పరీక్ష లెక్కించబడుతుంది. సాధారణంగా, ఒక వ్యక్తి పాజిటివ్‌గా పరీక్షించినప్పుడు, వైరస్ దాని కోర్సును అమలు చేసినప్పుడు వారు మళ్లీ పరీక్షిస్తారు మరియు ప్రతికూలతను పరీక్షిస్తారు. కాబట్టి, ఒక కోణంలో, ప్రతి సానుకూల కేసుకు, ప్రతికూల పరీక్ష కేసు దానిని రద్దు చేస్తుంది. చాలా వరకు పరీక్షలు ప్రతికూలంగా ఉన్నాయి మరియు ప్రతి వ్యక్తి యొక్క ప్రతికూల పరీక్షలు లెక్కించబడ్డాయి. డేటా ఎలా పక్షపాతంతో ఉందో మరియు నిర్ణయాలు తీసుకోవడానికి ప్రత్యేకించి ఉపయోగకరంగా ఉండదని మీరు చూడవచ్చు. 

AI ఇన్‌పుట్ మరియు శిక్షణ పక్షపాతంతో ఉంటుంది

AI పక్షపాత ఫలితాలకు దారితీసే కనీసం రెండు మార్గాలు ఉన్నాయి: పక్షపాత డేటాతో ప్రారంభించడం లేదా చెల్లుబాటు అయ్యే డేటాను ప్రాసెస్ చేయడానికి పక్షపాత అల్గారిథమ్‌లను ఉపయోగించడం.  

పక్షపాత ఇన్‌పుట్

సంఖ్యలను క్రంచ్ చేయడానికి, దాని అల్గారిథమ్‌లను వర్తింపజేయడానికి మరియు డేటా యొక్క విశ్వసనీయ విశ్లేషణను ఉమ్మివేయడానికి AI విశ్వసించబడుతుందని మనలో చాలా మంది అభిప్రాయపడుతున్నారు. ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ శిక్షణ పొందినంత స్మార్ట్‌గా ఉంటుంది. శిక్షణ పొందిన డేటా అసంపూర్ణంగా ఉంటే, ఫలితాలు లేదా ముగింపులు కూడా విశ్వసించబడవు. సర్వే పక్షపాతం యొక్క ఎగువ కేసు మాదిరిగానే, డేటా ఉండేలా అనేక మార్గాలు ఉన్నాయి కుహనా యంత్ర అభ్యాసంలో:.  

  • నమూనా బయాస్ - శిక్షణ డేటాసెట్ మొత్తం జనాభాకు ప్రతినిధి కాదు.
  • మినహాయింపు పక్షపాతం - కొన్నిసార్లు అవుట్‌లైయర్‌లుగా కనిపించేవి వాస్తవానికి చెల్లుబాటు అవుతాయి లేదా, మనం ఏమి చేర్చాలనే దానిపై గీతను గీస్తాము (జిప్ కోడ్‌లు, తేదీలు మొదలైనవి).
  • కొలత పక్షపాతం - కన్వెన్షన్ ఎల్లప్పుడూ నెలవంక మధ్య మరియు దిగువ నుండి కొలవడం, ఉదాహరణకు, ఘనపరిమాణ ఫ్లాస్క్‌లు లేదా టెస్ట్ ట్యూబ్‌లలో ద్రవాలను కొలిచేటప్పుడు (పాదరసం మినహా.)
  • రీకాల్ బయాస్ – పరిశోధన పాల్గొనేవారి జ్ఞాపకశక్తిపై ఆధారపడి ఉన్నప్పుడు.
  • పరిశీలకుల పక్షపాతం - శాస్త్రవేత్తలు, మానవులందరిలాగే, వారు ఏమి చూడాలనుకుంటున్నారో చూడడానికి ఎక్కువ మొగ్గు చూపుతారు.
  • సెక్సిస్ట్ మరియు జాత్యహంకార పక్షపాతం - సెక్స్ లేదా జాతి ఎక్కువగా లేదా తక్కువగా ప్రాతినిధ్యం వహించవచ్చు.  
  • అసోసియేషన్ బయాస్ - డేటా మూస పద్ధతులను బలపరుస్తుంది

AI విశ్వసనీయ ఫలితాలను అందించడానికి, దాని శిక్షణ డేటా వాస్తవ ప్రపంచాన్ని సూచించాలి. మేము మునుపటి బ్లాగ్ కథనంలో చర్చించినట్లుగా, డేటా తయారీ అనేది ఇతర డేటా ప్రాజెక్ట్ లాగానే కీలకం. విశ్వసనీయత లేని డేటా మెషిన్ లెర్నింగ్ సిస్టమ్‌లకు తప్పు పాఠాన్ని నేర్పుతుంది మరియు తప్పుడు ముగింపుకు దారి తీస్తుంది. అది చెప్పింది, “డేటా అంతా పక్షపాతంతో కూడుకున్నది. ఇది మతిస్థిమితం కాదు. ఇది వాస్తవం." – డా. సంజీవ్ ఎం. నారాయణ్, స్టాన్‌ఫోర్డ్ యూనివర్సిటీ స్కూల్ ఆఫ్ మెడిసిన్.

శిక్షణ కోసం పక్షపాత డేటాను ఉపయోగించడం అనేక ముఖ్యమైన AI వైఫల్యాలకు దారితీసింది. (ఉదాహరణలు <span style="font-family: Mandali; ">ఇక్కడ క్లిక్ చేయండి మరియు <span style="font-family: Mandali; ">ఇక్కడ క్లిక్ చేయండి , పరిశోధన <span style="font-family: Mandali; ">ఇక్కడ క్లిక్ చేయండి ..)

పక్షపాత అల్గోరిథంలు

అల్గోరిథం అనేది ఇన్‌పుట్‌ను అంగీకరించే మరియు వ్యాపార సమస్యకు సమాధానమివ్వడానికి అవుట్‌పుట్‌ను సృష్టించే నియమాల సమితి. అవి తరచుగా బాగా నిర్వచించబడిన నిర్ణయ వృక్షాలు. అల్గారిథమ్‌లు బ్లాక్ బాక్స్‌లలా అనిపిస్తాయి. అవి ఎలా పని చేస్తాయో ఎవరికీ ఖచ్చితంగా తెలియదు వాటిని ఉపయోగించే కంపెనీలు. ఓహ్, మరియు అవి తరచుగా యాజమాన్యం. పక్షపాత అల్గారిథమ్‌లు చాలా కృత్రిమంగా ఉండటానికి వారి రహస్యమైన మరియు సంక్లిష్టమైన స్వభావం ఒక కారణం. . 

ఔషధం, HR లేదా ఫైనాన్స్‌లో జాతిని పరిగణనలోకి తీసుకునే AI అల్గారిథమ్‌లను పరిగణించండి. జాతి ఒక కారకంగా ఉంటే, అల్గోరిథం జాతిపరంగా గుడ్డిగా ఉండకూడదు. ఇది సైద్ధాంతికమైనది కాదు. వాస్తవ ప్రపంచంలో AIని ఉపయోగించి ఇలాంటి సమస్యలు కనుగొనబడ్డాయి నియమించడానికి, రైడ్-షేర్, రుణ దరఖాస్తుs, మరియు మూత్రపిండ మార్పిడి

బాటమ్ లైన్ ఏమిటంటే, మీ డేటా లేదా అల్గారిథమ్‌లు చెడుగా ఉంటే, పనికిరాని వాటి కంటే అధ్వాన్నంగా ఉంటే, అవి ప్రమాదకరమైనవి కావచ్చు. అటువంటి విషయం ఉంది "అల్గోరిథమిక్ ఆడిట్." సరసత, పక్షపాతం మరియు వివక్షకు సంబంధించిన అల్గారిథమ్‌కు సంబంధించిన సంభావ్య ప్రమాదాలను గుర్తించడంలో సంస్థలకు సహాయం చేయడమే లక్ష్యం. మరెక్కడా, <span style="font-family: Mandali; ">ఫేస్‌బుక్ </span> AIలో పక్షపాతంతో పోరాడేందుకు AIని ఉపయోగిస్తోంది.

ప్రజలు పక్షపాతంతో ఉన్నారు

మేము సమీకరణానికి రెండు వైపులా వ్యక్తులను కలిగి ఉన్నాము. ప్రజలు విశ్లేషణను సిద్ధం చేస్తున్నారు మరియు ప్రజలు సమాచారాన్ని స్వీకరిస్తున్నారు. పరిశోధకులు ఉన్నారు మరియు పాఠకులు ఉన్నారు. ఏదైనా కమ్యూనికేషన్‌లో, ప్రసారం లేదా రిసెప్షన్‌లో సమస్యలు ఉండవచ్చు.

ఉదాహరణకు, వాతావరణాన్ని తీసుకోండి. “వర్షం పడే అవకాశం” అంటే ఏమిటి? మొదటిది, వర్షం పడే అవకాశం ఉందని వాతావరణ శాస్త్రవేత్తలు చెప్పినప్పుడు అర్థం ఏమిటి? US ప్రభుత్వం ప్రకారం జాతీయ వాతావరణ సేవ, వర్షం పడే అవకాశం లేదా వర్షపాతం యొక్క సంభావ్యత (PoP) అని వారు పిలిచే వాతావరణ సూచనలో కనీసం అర్థం చేసుకోబడిన అంశాలలో ఒకటి. దీనికి ఒక ప్రామాణిక నిర్వచనం ఉంది: “అవక్షేపణ సంభావ్యత అనేది కేవలం 0.01″ అంగుళాల [sic] యొక్క గణాంక సంభావ్యత, [sic] పేర్కొన్న సమయంలో ఇచ్చిన సూచన ప్రాంతంలోని ఒక నిర్దిష్ట ప్రాంతంలో అవపాతం ఎక్కువ. "ఇచ్చిన ప్రాంతం" అనేది సూచన ప్రాంతం, లేదా బిroadతారాగణం ప్రాంతం. అంటే అవపాతం యొక్క అధికారిక సంభావ్యత ఆ ప్రాంతంలో ఎక్కడో వర్షం పడుతుందనే విశ్వాసం మరియు తడిగా ఉండే ప్రాంతం యొక్క శాతంపై ఆధారపడి ఉంటుంది. మరో మాటలో చెప్పాలంటే, వాతావరణ నిపుణుడు సూచన ప్రాంతంలో (కాన్ఫిడెన్స్ = 100%) వర్షం పడుతుందని నిశ్చితంగా ఉంటే, అప్పుడు PoP వర్షాన్ని పొందే ప్రాంతం యొక్క భాగాన్ని సూచిస్తుంది.  

పారిస్ వీధి; వర్షపు రోజు,గుస్టావ్ కైల్లెబోట్టే (1848-1894) చికాగో ఆర్ట్ ఇన్స్టిట్యూట్ పబ్లిక్ డొమైన్

వర్షం వచ్చే అవకాశం విశ్వాసం మరియు ప్రాంతం రెండింటిపై ఆధారపడి ఉంటుంది. నాకు ఆ సంగతి తెలియదు. ఇతర వ్యక్తులకు కూడా తెలియదని నేను అనుమానిస్తున్నాను. జనాభాలో 75% మందికి PoP ఎలా గణించబడుతుందో లేదా అది దేనికి ప్రాతినిధ్యం వహిస్తుందో ఖచ్చితంగా అర్థం కాలేదు. కాబట్టి, మనం మోసపోతున్నామా లేదా, ఇది అవగాహన సమస్యా. దానిని అవపాత అవగాహన అంటాం. మేము వాతావరణ అంచనాదారుని నిందిస్తామా? నిజం చెప్పాలంటే, కొన్ని ఉన్నాయి గందరగోళం వాతావరణ అంచనాదారులలో కూడా. ఒకదానిలో సర్వే, సర్వే చేసిన 43% వాతావరణ శాస్త్రవేత్తలు PoP నిర్వచనంలో చాలా తక్కువ స్థిరత్వం ఉందని చెప్పారు.

విశ్లేషణ స్వయంగా పక్షపాతంతో ఉంటుంది

ఐదు ప్రభావితం చేసే కారకాలలో, విశ్లేషణ అత్యంత ఆశ్చర్యకరమైనది కావచ్చు. శాస్త్రీయ పరిశోధనలో సమీక్షించబడిన కాగితం ప్రచురించబడుతుంది, సాధారణంగా ఒక సిద్ధాంతం పరికల్పన చేయబడుతుంది, పరికల్పనను పరీక్షించడానికి పద్ధతులు నిర్వచించబడతాయి, డేటా సేకరించబడుతుంది, ఆపై డేటా విశ్లేషించబడుతుంది. చేసిన విశ్లేషణ రకం మరియు అది ఎలా జరుగుతుంది అనేది ముగింపులను ఎలా ప్రభావితం చేస్తుందో తక్కువగా అంచనా వేయబడుతుంది. a లో కాగితం ఈ సంవత్సరం ప్రారంభంలో (జనవరి 2022) ప్రచురించబడింది, ఇంటర్నేషనల్ జర్నల్ ఆఫ్ క్యాన్సర్‌లో, రచయితలు యాదృచ్ఛిక నియంత్రిత ట్రయల్స్ మరియు రెట్రోస్పెక్టివ్ అబ్జర్వేషనల్ స్టడీస్ ఫలితాలను విశ్లేషించారు. వారి పరిశోధనలు నిర్ధారించాయి,

తులనాత్మక ప్రభావ పరిశోధనలో వివిధ విశ్లేషణాత్మక ఎంపికల ద్వారా, మేము విరుద్ధమైన ఫలితాలను సృష్టించాము. మా ఫలితాలు కొన్ని పునరాలోచన పరిశీలనా అధ్యయనాలు రోగులకు చికిత్స ఫలితాలను మెరుగుపరుస్తాయని సూచిస్తున్నాయి, అయితే మరొక సారూప్య అధ్యయనం అది కేవలం విశ్లేషణాత్మక ఎంపికల ఆధారంగా లేదని కనుగొనవచ్చు.

గతంలో, ఒక సైంటిఫిక్ జర్నల్ కథనాన్ని చదివేటప్పుడు, మీరు నాలాంటి వారైతే, ఫలితాలు లేదా ముగింపులు అన్నీ డేటాకు సంబంధించినవి అని మీరు భావించి ఉండవచ్చు. ఇప్పుడు, ఫలితాలు, లేదా ప్రారంభ పరికల్పన ధృవీకరించబడిందా లేదా తిరస్కరించబడిందా అనేది కూడా విశ్లేషణ పద్ధతిపై ఆధారపడి ఉండవచ్చు.

మరో అధ్యయనం ఇలాంటి ఫలితాలను కనుగొన్నారు. ఈ వ్యాసము, చాలా మంది విశ్లేషకులు, ఒక డేటా సెట్: విశ్లేషణాత్మక ఎంపికలలోని వైవిధ్యాలు ఫలితాలను ఎలా ప్రభావితం చేస్తాయో పారదర్శకంగా చేయడం, విశ్లేషించడానికి వారు 29 వేర్వేరు బృందాలకు ఒకే డేటాను ఎలా అందించారో వివరిస్తుంది. డేటా విశ్లేషణ తరచుగా కఠినమైన, బాగా నిర్వచించబడిన ప్రక్రియగా పరిగణించబడుతుంది, ఇది ఒకే ముగింపుకు దారి తీస్తుంది.  

మెథడాలజిస్టుల నివేదనలు ఉన్నప్పటికీ, ఫలితాలు ఎంచుకున్న విశ్లేషణాత్మక వ్యూహంపై ఆధారపడి ఉండవచ్చనే వాస్తవాన్ని విస్మరించడం సులభం, ఇది సిద్ధాంతం, ఊహలు మరియు ఎంపిక పాయింట్లతో నిండి ఉంటుంది. అనేక సందర్భాల్లో, పరిశోధన ప్రశ్నకు సంబంధించిన డేటాను మూల్యాంకనం చేయడానికి అనేక సహేతుకమైన (మరియు అనేక అసమంజసమైన) విధానాలు ఉన్నాయి.

పరిశోధకులు డేటా యొక్క విశ్లేషణను క్రౌడ్-సోర్స్ చేసారు మరియు అన్ని పరిశోధనలు ఆత్మాశ్రయ నిర్ణయాలను కలిగి ఉన్నాయని నిర్ధారణకు వచ్చారు - ఏ రకమైన విశ్లేషణను ఉపయోగించాలో సహా - ఇది అధ్యయనం యొక్క అంతిమ ఫలితాన్ని ప్రభావితం చేస్తుంది.

మరొకరి సిఫార్సు పరిశోధకుడు పై అధ్యయనాన్ని విశ్లేషించిన వారు నిర్ణయాలు తీసుకోవడంలో లేదా తీర్మానాలు చేయడంలో ఒకే పేపర్‌ను ఉపయోగిస్తున్నప్పుడు జాగ్రత్తగా ఉండాలి.

Analyticsలో పక్షపాతాన్ని పరిష్కరించడం

ఇది కేవలం ఒక హెచ్చరిక కథ మాత్రమే. స్కామ్‌ల బారిన పడకుండా జ్ఞానం మనల్ని కాపాడుతుంది. స్కానర్ మనల్ని మోసం చేయడానికి ఉపయోగించే సాధ్యమైన పద్ధతుల గురించి ఎంత ఎక్కువ అవగాహన కలిగి ఉంటే, పిక్‌పాకెట్‌ల దారితప్పడం లేదా పోంజీ నాటకం యొక్క సాఫీగా మాట్లాడటం ద్వారా మనం తీసుకునే అవకాశం తక్కువగా ఉంటుంది. కనుక ఇది మా విశ్లేషణలను ప్రభావితం చేసే సంభావ్య పక్షపాతాలను అర్థం చేసుకోవడం మరియు గుర్తించడం. సంభావ్య ప్రభావాల గురించి మనకు అవగాహన ఉంటే, మేము కథను మెరుగ్గా ప్రదర్శించగలుగుతాము మరియు చివరికి మంచి నిర్ణయాలు తీసుకోగలము.  

BI/Analyticsవర్గీకరించని
మైక్రోసాఫ్ట్ ఎక్సెల్ ఎందుకు #1 విశ్లేషణ సాధనం
ఎందుకు Excel #1 Analytics సాధనం?

ఎందుకు Excel #1 Analytics సాధనం?

  ఇది చౌక మరియు సులభం. Microsoft Excel స్ప్రెడ్‌షీట్ సాఫ్ట్‌వేర్ బహుశా ఇప్పటికే వ్యాపార వినియోగదారు కంప్యూటర్‌లో ఇన్‌స్టాల్ చేయబడి ఉండవచ్చు. మరియు ఈ రోజు చాలా మంది వినియోగదారులు మైక్రోసాఫ్ట్ ఆఫీస్ సాఫ్ట్‌వేర్‌కు హైస్కూల్ నుండి లేదా అంతకుముందు కూడా బహిర్గతమయ్యారు. దీనికి ఈ మోకాలడ్డి స్పందన...

ఇంకా చదవండి

BI/Analyticsవర్గీకరించని
మీ అంతర్దృష్టులను అస్తవ్యస్తం చేయండి: ఎ గైడ్ టు ఎనలిటిక్స్ స్ప్రింగ్ క్లీనింగ్

మీ అంతర్దృష్టులను అస్తవ్యస్తం చేయండి: ఎ గైడ్ టు ఎనలిటిక్స్ స్ప్రింగ్ క్లీనింగ్

Unclutter Your Insights A Guide to Analytics Spring Cleaning కొత్త సంవత్సరం సందడితో ప్రారంభమవుతుంది; సంవత్సరాంతపు నివేదికలు సృష్టించబడతాయి మరియు పరిశీలించబడతాయి, ఆపై ప్రతి ఒక్కరూ స్థిరమైన పని షెడ్యూల్‌లో స్థిరపడతారు. రోజులు పెరిగే కొద్దీ చెట్లు, పూలు పూస్తాయి.

ఇంకా చదవండి

BI/Analyticsవర్గీకరించని
NY స్టైల్ వర్సెస్ చికాగో స్టైల్ పిజ్జా: ఎ డెలిషియస్ డిబేట్

NY స్టైల్ వర్సెస్ చికాగో స్టైల్ పిజ్జా: ఎ డెలిషియస్ డిబేట్

మన కోరికలను తీర్చినప్పుడు, కొన్ని విషయాలు పైపింగ్ హాట్ స్లైస్ పిజ్జా యొక్క ఆనందానికి పోటీగా ఉంటాయి. న్యూయార్క్-శైలి మరియు చికాగో-శైలి పిజ్జా మధ్య చర్చ దశాబ్దాలుగా ఉద్వేగభరితమైన చర్చలకు దారితీసింది. ప్రతి శైలికి దాని స్వంత ప్రత్యేక లక్షణాలు మరియు అంకితమైన అభిమానులు ఉన్నాయి....

ఇంకా చదవండి

BI/Analyticsకాగ్నోస్ అనలిటిక్స్
కాగ్నోస్ క్వెరీ స్టూడియో
మీ వినియోగదారులు వారి ప్రశ్న స్టూడియోని కోరుకుంటున్నారు

మీ వినియోగదారులు వారి ప్రశ్న స్టూడియోని కోరుకుంటున్నారు

IBM కాగ్నోస్ అనలిటిక్స్ 12 విడుదలతో, క్వెరీ స్టూడియో మరియు ఎనాలిసిస్ స్టూడియో యొక్క దీర్ఘకాలంగా ప్రకటించబడిన డిప్రికేషన్ చివరకు ఆ స్టూడియోలను తీసివేసి కాగ్నోస్ అనలిటిక్స్ వెర్షన్‌తో అందించబడింది. ఇది చాలా మందికి ఆశ్చర్యం కలిగించనప్పటికీ...

ఇంకా చదవండి

BI/Analyticsవర్గీకరించని
టేలర్ స్విఫ్ట్ ఎఫెక్ట్ నిజమేనా?

టేలర్ స్విఫ్ట్ ఎఫెక్ట్ నిజమేనా?

ఆమె సూపర్ బౌల్ టిక్కెట్ ధరలను పెంచుతోందని కొందరు విమర్శకులు సూచిస్తున్నారు ఈ వారాంతంలో సూపర్ బౌల్ టెలివిజన్ చరిత్రలో అత్యధికంగా వీక్షించబడిన టాప్ 3 ఈవెంట్‌లలో ఒకటిగా ఉంటుందని భావిస్తున్నారు. బహుశా గత సంవత్సరం రికార్డు-సెట్టింగ్ సంఖ్యల కంటే ఎక్కువ మరియు బహుశా 1969 చంద్రుని కంటే ఎక్కువ...

ఇంకా చదవండి

BI/Analytics
అనలిటిక్స్ కేటలాగ్‌లు – అనలిటిక్స్ ఎకోసిస్టమ్‌లో ఎ రైజింగ్ స్టార్

అనలిటిక్స్ కేటలాగ్‌లు – అనలిటిక్స్ ఎకోసిస్టమ్‌లో ఎ రైజింగ్ స్టార్

ఒక చీఫ్ టెక్నాలజీ ఆఫీసర్ (CTO)గా పరిచయం, నేను ఎనలిటిక్స్‌ను సంప్రదించే విధానాన్ని మార్చే అభివృద్ధి చెందుతున్న సాంకేతికతల కోసం ఎల్లప్పుడూ వెతుకుతూ ఉంటాను. గత కొన్ని సంవత్సరాలుగా నా దృష్టిని ఆకర్షించిన మరియు అపారమైన వాగ్దానాన్ని కలిగి ఉన్న అటువంటి సాంకేతికత Analytics...

ఇంకా చదవండి