تجزياتي ڪوڙ

by جان بوئروڳي 31، 2022BI/Analytics0 رايا

تجزياتي ڪوڙ

تجزيي جي تعصب

مارڪ ٽوئن بحث مباحثي سان ڪجهه هن طرح چيو هو ته ”ڪوڙ جا ٽي قسم آهن: ڪوڙ، ڪوڙ ۽ ڪوڙ. اينالائيٽڪس. "

اسان سمجهون ٿا ته تجزياتي اسان کي مفيد، قابل عمل بصيرت ڏئي ٿي. جيڪو اسان اڪثر نه ٿا سمجهون ته اسان جا پنهنجا تعصب ۽ ٻين جا اهي جوابن تي اثرانداز ٿين ٿا جيڪي اسان کي ڏنو ويو آهي ان کان به وڌيڪ نفيس سافٽ ويئر ۽ سسٽم. ڪڏهن ڪڏهن، اسان کي بي ايماني سان ٺهرايو وڃي ٿو، پر، وڌيڪ عام طور تي، اهو شايد ذيلي ۽ غير شعوري تعصب ٿي سگهي ٿو جيڪو اسان جي تجزيي ۾ چري ٿو. تعصب واري تجزيي جي پويان حوصلا ڪيترائي ڀيرا آهن. ڪڏهن ڪڏهن غير جانبدار نتيجا جيڪي اسان سائنس کان توقع ڪندا آهيون انهن تي اثرانداز ٿيندا آهن 1) ذيلي چونڊون انهي ۾ ته ڊيٽا ڪيئن پيش ڪئي ويندي آهي، 2) متضاد يا غير نمائندي ڊيٽا، 3) ڪيئن AI سسٽم کي تربيت ڏني ويندي آهي، 4) تحقيق ڪندڙن جي جهالت، نااهلي يا ٻين جي ڪوشش ڪهاڻي ٻڌائڻ، 5) خود تجزيو.

پيشڪش بيحد آهي

ڪجھ ڪوڙ ٻين جي ڀيٽ ۾ ڳولڻ آسان آھن. جڏهن توهان ڄاڻو ٿا ته ڇا ڳولڻ لاء توهان کي وڌيڪ آساني سان ممڪن طور تي پتو پئجي سگھي ٿو گمراهه ڪندڙ گراف ۽ چارٽ.

اتي گهٽ ۾ گهٽ آهن ڊيٽا کي غلط طور تي ظاهر ڪرڻ لاء پنج طريقا: 1) هڪ محدود ڊيٽا سيٽ ڏيکاريو، 2). غير لاڳاپيل لاڳاپا ڏيکاريو، 3) ڊيٽا کي غلط ڏيکاريو، 4) ڊيٽا غير روايتي طور ڏيکاريو، يا 5). ڏيکاريو ڊيٽا کي وڌيڪ آسان.

هڪ محدود ڊيٽا سيٽ ڏيکاريو

ڊيٽا کي محدود ڪرڻ، يا ڊيٽا جي غير بي ترتيب واري حصي کي هٿ چونڊڻ اڪثر ڪري هڪ ڪهاڻي ٻڌائي سگهي ٿو جيڪا وڏي تصوير سان مطابقت نه آهي. خراب نموني، يا چيري چونڊڻ، اهو آهي جڏهن تجزيه نگار هڪ وڏي گروپ جي نمائندگي ڪرڻ لاء غير نمائندي نموني استعمال ڪري ٿو.

مارچ 2020 ۾، جارجيا جي پبلڪ هيلٿ ڊپارٽمينٽ هن چارٽ کي پنهنجي روزاني اسٽيٽس رپورٽ جي حصي طور شايع ڪيو. اهو اصل ۾ ان جي جوابن کان وڌيڪ سوال پيدا ڪري ٿو.

انهن شين مان هڪ آهي جيڪو غائب آهي سياق و سباق. مثال طور، اهو ڄاڻڻ مددگار ٿيندو ته آبادي جو سيڪڙو ڇا آهي هر عمر جي گروپ لاءِ. هڪ ٻيو مسئلو سادو ڏسڻ واري پائي چارٽ سان اڻ برابري عمر گروپ آهي. 0-17 ۾ 18 سال آهن، 18-59 ۾ 42 آهن، 60+ کليل ختم ٿيل آهن، پر لڳ ڀڳ 40 سال آهن. نتيجو، هن چارٽ کي اڪيلو ڏنو ويو آهي، اهو آهي ته گهڻا ڪيس 18-59 سالن جي عمر جي گروپ ۾ آهن. 60+ سالن جي عمر جو گروپ COVID ڪيسن کان گهٽ متاثر ٿيل نظر اچي ٿو. پر هي سڄي ڪهاڻي نه آهي.

مقابلي لاء، هن مختلف ڊيٽا سيٽ تي سي ڊي سي ويب سائيٽ يو ايس جي آبادي جي فيصد تي اضافي ڊيٽا سان گڏ عمر جي گروپ طرفان COVID ڪيسن جو چارٽ جيڪو هر عمر جي حد ۾ آهي.

اهو بهتر آهي. اسان وٽ وڌيڪ حوالا آهن. اسان ڏسي سگھون ٿا ته عمر جي گروپن 18-29، 30-39، 40-49 سڀني کي آبادي ۾ عمر گروپ جي سيڪڙو جي ڀيٽ ۾ ڪيسن جو اعلي سيڪڙو آهي. اڃا به ڪي اڻ برابري عمر جا گروپ آهن. ڇو 16-17 هڪ الڳ عمر گروپ آهي؟ اڃا ته هيءَ سڄي ڪهاڻي نه آهي، پر پنڊتن ان کان گهٽ تي ڪالم لکيا آهن، اڳڪٿيون ڪيون آهن ۽ منٿون ڪيون آهن. ظاهر آهي، COVID سان، عمر کان علاوه ڪيترائي متغير آهن جيڪي متاثر ڪن ٿا هڪ مثبت ڪيس طور ڳڻڻ: ويڪسينيشن جي صورتحال، ٽيسٽن جي دستيابي، ٽيسٽن جو تعداد، ڪاموربيڊيٽيز، ۽ ٻيا ڪيترائي. ڪيسن جو تعداد، پاڻ، هڪ نامڪمل تصوير مهيا ڪري ٿو. اڪثر ماهر موت جي تعداد، يا في 100,000 آبادي جي موت جو سيڪڙو، يا ڪيسن جي موت کي ڏسڻ لاءِ ڏسندا آهن ته COVID هر عمر گروپ کي ڪيئن متاثر ڪري ٿو.

غير لاڳاپيل لاڳاپا ڏيکاريو

ظاهر آهي، اتي هڪ آهي مضبوط لاڳاپو سائنس، خلائي ۽ ٽيڪنالاجي تي آمريڪي خرچن جي وچ ۾ ۽ پھانسي، گلا ۽ دم گھٹڻ جي ذريعي خودڪشي جي تعداد جي وچ ۾. لاڳاپو 99.79٪ آهي، تقريبن هڪ ڀرپور ميچ.

ڪير، جيتوڻيڪ، اهو ڪيس ٺاهيندو ته اهي ڪنهن به طرح سان لاڳاپيل آهن، يا هڪ ٻئي سبب آهن؟ اهڙا ٻيا به گهٽ انتهائي مثال آهن، پر ڪو به گهٽ ڪوڙو. Scripps National Spelling Bee جي Winning Word ۾ Letters and Number of People Killed by Venomous Spiders جي وچ ۾ ھڪڙو مضبوط تعلق آھي. اتفاق؟ تون فيصلو ڪر.

هن ڊيٽا کي چارٽ ڪرڻ جو هڪ ٻيو طريقو جيڪو گهٽ گمراهه ڪندڙ ٿي سگهي ٿو اهو هوندو ٻنهي Y-axes تي صفر شامل ڪرڻ.

غلط ڊيٽا ڏيکاريو

کان ڊيٽا کي خراب طريقي سان ڪيئن ڏيکاريو، يو ايس اسٽيٽ آف جارجيا پيش ڪيو مٿيان 5 ملڪ جن جي تصديق ٿيل COVID-19 ڪيسن جي وڏي تعداد سان.

لڳي ٿو جائز، صحيح؟ واضح طور تي تصديق ٿيل COVID-19 ڪيسن جو هيٺيون رجحان آهي. ڇا توهان پڙهي سگهو ٿا ايڪس محور؟ ايڪس محور وقت جي نمائندگي ڪري ٿو. عام طور تي، تاريخون کاٻي کان ساڄي طرف وڌي وينديون. هتي، اسان ڏسون ٿا ٿورڙو وقت سفر ايڪس محور تي:

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

انتظار ڪريو؟ ڇا؟ ايڪس محور کي ترتيب سان ترتيب نه ڏنو ويو آهي. تنهن ڪري، جيترو سٺو رجحان نظر اچي سگهي ٿو، اسان ڪو به نتيجو نه ڪڍي سگهون ٿا. جيڪڏهن تاريخون ترتيب ڏنيون وڃن، ڪيسن جي تعداد لاءِ بار ڪنهن به قسم جي رجحان جي ڀيٽ ۾ آري ٽوٿ نموني جي وڌيڪ ڏيکاري ٿو.

هتي آسان حل آهي تاريخن کي ترتيب ڏيڻ جو طريقو هڪ ڪئلينڊر ڪندو آهي.

غير روايتي طور تي ڊيٽا ڏيکاريو

اسان سڀ مصروف آهيون. اسان جي دماغن اسان کي سيکاريو آهي ته تڪڙا فيصلا ڪن مفروضن جي بنياد تي جيڪي اسان جي دنيا ۾ برابر آهن. مثال طور، هر گراف جيڪو مون ڏٺو آهي اهو ڏيکاري ٿو x- ۽ y-axes جي ميٽنگ صفر تي، يا گهٽ ۾ گهٽ قدر. هن چارٽ کي مختصر طور تي ڏسندي، توهان فلوريڊا جي اثر بابت ڪهڙا نتيجا ڪڍي سگهو ٿا ”پنهنجي بنيادي قانون تي قائم رهي.”؟ مان ان کي تسليم ڪرڻ ۾ شرمسار آهيان، پر هن گراف مون کي پهرين بيوقوف بڻائي ڇڏيو. توهان جي نظر آساني سان متن ڏانهن ڇڪيل آهي ۽ گرافڪ جي وچ ۾ تير. هن گراف ۾ هيٺ مٿي آهي. اهو ڪوڙ نه ٿي سگهي - ڊيٽا سڀ ٺيڪ آهي اتي. پر، مون کي سوچڻو پوندو ته اهو ٺڳي ڪرڻ جو مطلب آهي. جيڪڏهن توهان اڃا تائين نه ڏٺو آهي، y-axis تي صفر مٿي تي آهي. تنهن ڪري، ڊيٽا جي رجحان هيٺ، ان جو مطلب آهي وڌيڪ موت. هي چارٽ ڏيکاري ٿو ته هٿيار استعمال ڪندي قتل جو تعداد وڌائي 2005 کان پوء، رجحان جي طرف اشارو ڪيو ويو نازل.

ڊيٽا کي وڌيڪ آسان ڏيکاريو

ڊيٽا جي وڌيڪ سادگي جو هڪ مثال ڏسي سگھجي ٿو جڏهن تجزيه نگار سمپسن جي پيراڊڪس جو فائدو وٺندا آهن. اهو هڪ رجحان آهي جيڪو تڏهن ٿئي ٿو جڏهن مجموعي ڊيٽا ظاهر ٿئي ٿي هڪ مختلف نتيجو ظاهر ڪرڻ جي ڀيٽ ۾ جڏهن ان کي سبسٽس ۾ ورهايو ويو آهي. هي پيچرو گرڻ آسان آهي جڏهن اعلي سطحي مجموعي فيصد کي ڏسي. ڪم تي سمپسن جي پيراڊڪس جي واضح ترين مثالن مان هڪ سان لاڳاپيل آهي بيٽنگ جي اوسط.

هتي اسان ڏسون ٿا ته ڊيرڪ جيٽر وٽ 1995 ۽ 1996 موسمن لاءِ ڊيوڊ جسٽس کان وڌيڪ مجموعي بيٽنگ اوسط آهي. تضاد اچي ٿو جڏهن اسان محسوس ڪيو ته جسٽس جيٽر کي بيٽنگ جي اوسط ۾ انهن ٻنهي سالن ۾ بهترين ڪيو. جيڪڏهن توهان غور سان ڏسندا ته اهو سمجهه ۾ اچي ٿو جڏهن توهان محسوس ڪيو ته جيٽر 4 ۾ تقريباً 1996x وڌيڪ ايٽ-بيٽس (دي ڊانومينيٽر) 007 ۾ .1996 گهٽ اوسط تي هو. جڏهن ته، جسٽس تقريبن 10x ايٽ بيٽس جو تعداد صرف 003 ۾ هو. 1995 ۾ XNUMX اعلي اوسط.

پريزنٽيشن سڌو سنئون نظر اچي ٿو، پر سمپسن جي پيراڊڪس، ڄاڻي واڻي، يا اڻڄاڻ طور تي، غلط نتيجن جو سبب بڻيل آهي. تازو، سمپسن جي پيراڊڪس جا مثال موجود آهن خبرن ۾ ۽ سوشل ميڊيا تي ويڪسينز ۽ COVID جي موت سان لاڳاپيل. هڪ چارٽ 10-59 سالن جي عمر وارن ماڻهن لاءِ ويڪسين ٿيل ۽ اڻ ويڪسين ٿيل موت جي شرحن جي وچ ۾ هڪ لائن گراف ڏيکاري ٿو. چارٽ ظاھر ڪري ٿو ته غير ويڪسينيشن مسلسل گھٽ موت جي شرح آھي. هتي ڇا ٿي رهيو آهي؟

مسئلو ساڳيو آهي جيڪو اسان بيٽنگ جي اوسط سان ڏسون ٿا. هن معاملي ۾ denominator هر عمر گروپ ۾ ماڻهن جو تعداد آهي. گراف گروپن کي گڏ ڪري ٿو جن جا مختلف نتيجا آهن. جيڪڏهن اسان وڏي عمر جي گروپ کي ڏسو، 50-59، الڳ الڳ، اسان ڏسون ٿا ته ويڪسين ٿيل ڀاڙي بهتر آهي. ساڳئي طرح، جيڪڏهن اسان 10-49 تي نظر اچن ٿا، اسان اهو پڻ ڏسندا آهيون ته ويڪسين ٿيل ڀاڻ بهتر آهي. متضاد طور تي، جڏهن گڏيل سيٽ تي نظر اچي ٿي، اڻ وڻندڙ نتيجو هڪ بدترين نتيجو آهي. هن طريقي سان، توهان ڊيٽا کي استعمال ڪندي مخالف دليلن لاء هڪ ڪيس ٺاهي سگهو ٿا.

ڊيٽا بيحد آهي

ڊيٽا هميشه تي اعتبار نه ٿو ڪري سگهجي. جيتوڻيڪ سائنسي ڪميونٽي ۾، تحقيق ڪندڙن جو ٽيون حصو سروي ڪيو ويو آهي "قابل اعتراض تحقيق جا طريقا." ٻيو تحقيق فراڊ جاسوس چوي ٿو، "ڊيٽا ۾ تمام گهڻو وڌيڪ فراڊ جو امڪان آهي - جدولن، لائن گرافس، ڊيٽا کي ترتيب ڏيڻ [- کان وڌيڪ اسان اصل ۾ دريافت ڪري رهيا آهيون]. ڪو به ماڻهو پنهنجي باورچی خانه جي ٽيبل تي ويٺو ڪجهه نمبر هڪ اسپريڊ شيٽ ۾ رکي سگهي ٿو ۽ هڪ لائن گراف ٺاهي سگھي ٿو جيڪو قائل نظر اچي ٿو.

هن جو پهريون مثال لڳي ٿو ڪنهن ائين ڪيو آهي. مان اهو نه چئي رهيو آهيان ته هي دوکي آهي، پر هڪ سروي جي طور تي، اهو صرف ڪنهن به ڊيٽا پيدا نٿو ڪري جيڪا ڄاڻ واري فيصلي ۾ مدد ڪري ٿي. اهو ڏسڻ ۾ اچي ٿو ته سروي جواب ڏيڻ وارن کان انهن جي راءِ بابت گئس اسٽيشن ڪافي، يا ڪجهه ٻين لاڳاپيل موجوده واقعن بابت پڇيو.

خوب
زبردست
تمام سٺو

مون ڏوھاري پارٽيءَ جا حوالا ھٽائڻ لاءِ Twitter پوسٽ ٺاھيو آھي، پر ھي سروي جي حتمي نتيجن جو اصل سڄو چارٽ آھي. اهڙا سروي غير معمولي نه آهن. ظاهر آهي، جوابن جي نتيجي ۾ ڊيٽا مان ٺاهيل ڪو به چارٽ ڏيکاريندو ته ڪافي سوال ۾ نه وڃايو وڃي.

مسئلو اهو آهي ته جيڪڏهن توهان کي اهو سروي ڏنو ويو آهي ۽ توهان جي سوچ مطابق جواب نه ملي ها ته توهان سروي کي ڇڏي ڏيو ها. اهو هڪ انتهائي مثال ٿي سگهي ٿو ته ڪيئن ناقابل اعتبار ڊيٽا ٺاهي سگهجي ٿي. ناقص سروي ڊيزائن، جيتوڻيڪ، گهٽ جوابن جو سبب بڻجي سگهي ٿو ۽ جيڪي جواب ڏين ٿا انهن جي صرف هڪ راء آهي، اهو صرف درجي جو معاملو آهي. ڊيٽا باصلاحيت آهي.

ڊيٽا جي تعصب جو هي ٻيو مثال فائلن مان آهي “بدترين COVID 19 گمراھ ڪندڙ گراف. "

ٻيهر، اهو ذليل آهي ۽ مڪمل طور تي واضح ناهي. بار گراف ڏيکاري ٿو هڪ هموار - تقريبن تمام هموار - گهٽجي ويو مثبت COVID-19 ڪيسن جي سيڪڙو ۾ وقت سان گڏ فلوريڊا ۾ هڪ ڪائونٽي لاءِ. توهان آساني سان اهو نتيجو ڪڍي سگهو ٿا ته ڪيس گهٽجي رهيا آهن. اھو وڏو آھي، بصريت صحيح طور تي ڊيٽا جي نمائندگي ڪري ٿي. مسئلو ڊيٽا ۾ آهي. تنهن ڪري، اهو هڪ وڌيڪ غير جانبدار تعصب آهي ڇو ته توهان ان کي نه ڏسي سگهو ٿا. اهو ڊيٽا ۾ پڪل آهي. سوال جيڪي توهان کي پڇڻ گهرجن، شامل آهن، ڪير آزمائي رهيو آهي؟ ٻين لفظن ۾، ڇا آهي denominator، يا آبادي جنهن کي اسان هڪ سيڪڙو ڏسي رهيا آهيون. فرض اهو آهي ته اها پوري آبادي آهي، يا گهٽ ۾ گهٽ، هڪ نمائندو نمونو.

جڏهن ته، هن عرصي دوران، هن ملڪ ۾، ٽيسٽ صرف محدود ماڻهن کي ڏني وئي. انهن وٽ COVID جهڙيون علامتون هجڻ گهرجن ، يا تازو ئي ڪنهن ملڪ ڏانهن سفر ڪيو هو گرم هنڌن جي فهرست تي. اضافي طور تي نتيجن کي ٺهڪندڙ حقيقت اها آهي ته هر مثبت ٽيسٽ ڳڻيو ويو ۽ هر منفي ٽيسٽ ڳڻيو ويو. عام طور تي، جڏهن هڪ فرد مثبت آزمائي ٿو، اهي ٻيهر ٽيسٽ ڪندا جڏهن وائرس پنهنجو ڪورس هلائي چڪو هو ۽ منفي ٽيسٽ ڪندو. تنهن ڪري، هڪ لحاظ کان، هر مثبت ڪيس لاء، هڪ منفي ٽيسٽ ڪيس آهي جيڪو ان کي رد ڪري ٿو. ٽيسٽن جي وڏي اڪثريت منفي آهي ۽ هر فرد جا منفي ٽيسٽ ڳڻيا ويا. توهان ڏسي سگهو ٿا ته ڊيٽا ڪيئن باصلاحيت آهي ۽ فيصلا ڪرڻ لاء خاص طور تي ڪارائتو ناهي.

AI ان پٽ ۽ ٽريننگ باصلاحيت آهي

اتي گهٽ ۾ گهٽ ٻه طريقا آهن جن ۾ AI باصلاحيت نتيجن جي ڪري سگھي ٿو: تعصب واري ڊيٽا سان شروع ڪرڻ، يا صحيح ڊيٽا کي پروسيس ڪرڻ لاء باصلاحيت الورورٿم استعمال ڪندي.

باصلاحيت ان پٽ

اسان مان ڪيترائي ان تاثر هيٺ آهن ته AI تي اعتبار ڪري سگهجي ٿو انگن کي گهٽائڻ، ان جي الگورتھم کي لاڳو ڪرڻ، ۽ ڊيٽا جي قابل اعتماد تجزيو ڪرڻ لاءِ. مصنوعي ذهانت صرف ايترو ئي هوشيار ٿي سگهي ٿو جيترو اهو تربيت يافته آهي. جيڪڏهن ڊيٽا جنهن تي ان کي تربيت ڏني وئي آهي ناقص آهي، نتيجن يا نتيجن تي اعتبار نه ڪيو ويندو، يا ته. سروي جي تعصب جي مٿين صورت وانگر، اهڙا ڪيترائي طريقا آهن جن ۾ ڊيٽا ٿي سگهي ٿي بااختيار مشين سکيا ۾:.

نموني تعصب - تربيتي ڊيٽا سيٽ پوري آبادي جو نمائندو نه آهي.
Exclusion bias - ڪڏهن ڪڏهن جيڪي ظاهر ٿيندا آهن اهي اصل ۾ صحيح هوندا آهن، يا، جتي اسان لڪير ڪڍون ٿا ته ڇا شامل ڪيو وڃي (زپ ڪوڊ، تاريخون، وغيره).
ماپي تعصب - ڪنوينشن هميشه مينيسس جي مرڪز ۽ هيٺان کان ماپڻ آهي، مثال طور، جڏهن حجم ميٽرڪ فلاسڪس يا ٽيسٽ ٽيوب ۾ مائع کي ماپڻ (سواءِ پاري.)
تعصب کي ياد ڪريو - جڏهن تحقيق شرڪت ڪندڙن جي ياداشت تي منحصر آهي.
مبصرن جي تعصب - سائنسدان، سڀني انسانن وانگر، ڏسڻ لاء وڌيڪ مائل آهن جيڪي ڏسڻ جي اميد رکندا آهن.
جنس پرست ۽ نسل پرست تعصب - جنس يا نسل ٿي سگهي ٿو مٿان يا گهٽ نمائندگي.
ايسوسيئيشن تعصب - ڊيٽا اسٽيريوٽائپس کي مضبوط ڪري ٿو

AI لاء قابل اعتماد نتيجا موٽڻ لاء، ان جي تربيتي ڊيٽا کي حقيقي دنيا جي نمائندگي ڪرڻ جي ضرورت آهي. جيئن اسان اڳئين بلاگ آرٽيڪل ۾ بحث ڪيو آهي، ڊيٽا جي تياري نازڪ آهي ۽ ڪنهن ٻئي ڊيٽا پروجيڪٽ وانگر. ناقابل اعتبار ڊيٽا مشين سکيا سسٽم کي غلط سبق سيکاريندو ۽ نتيجو غلط نتيجو ٿيندو. اهو چيو ته، "سڀ ڊيٽا باصلاحيت آهي. هي paranoia نه آهي. اها حقيقت آهي.” - ڊاڪٽر سنجيو ايم نارائن، اسٽنفورڊ يونيورسٽي اسڪول آف ميڊيسن.

تربيت لاءِ باصلاحيت ڊيٽا استعمال ڪرڻ سبب ڪيترن ئي قابل ذڪر AI ناڪامين جو سبب بڻيل آهي. (مثال هتي ۽ هتي، تحقيق هتي..)

باصلاحيت الگورتھم

هڪ الورورٿم ضابطن جو هڪ سيٽ آهي جيڪو هڪ ان پٽ قبول ڪري ٿو ۽ پيداوار پيدا ڪري ٿو ڪاروباري مسئلي جو جواب ڏيڻ لاءِ. اهي اڪثر ڪري چڱي طرح بيان ڪيل فيصلي جا وڻ آهن. Algorithms ڪارو باڪس وانگر محسوس. ڪنهن کي به پڪ ناهي ته اهي ڪيئن ڪم ڪن ٿا، اڪثر، نه ته ڪمپنيون جيڪي استعمال ڪن ٿيون. ها، ۽ اهي اڪثر ڪري ملڪيت آهن. انهن جي پراسرار ۽ پيچيده نوعيت جو هڪ سبب آهي ڇو ته باصلاحيت الورورٿم تمام گھڻا آهن. .

دوائن، HR يا فنانس ۾ AI الگورتھم تي غور ڪريو جيڪي نسل کي غور ۾ وٺن ٿا. جيڪڏهن نسل هڪ عنصر آهي، الگورتھم نسلي طور تي انڌا نه ٿي سگهي. هي نظرياتي نه آهي. اهڙن مسئلن کي حقيقي دنيا ۾ دريافت ڪيو ويو آهي AI استعمال ڪندي نوڪرين, سواري جو حصو, قرض جي درخواستs، ۽ همت.

هيٺئين لڪير اهو آهي ته جيڪڏهن توهان جي ڊيٽا يا الگورتھم خراب آهن، بيڪار کان وڌيڪ خراب آهن، اهي خطرناڪ ٿي سگهن ٿيون. اتي هڪ اهڙي شيء آهي جيئن "algorithmic آڊٽ” مقصد اهو آهي ته تنظيمن جي مدد ڪرڻ الورورٿم سان لاڳاپيل امڪاني خطرن کي سڃاڻڻ ۾ جيئن ته اهو انصاف، تعصب ۽ تبعيض سان تعلق رکي ٿو. ٻئي هنڌ، ڪريو AI ۾ تعصب سان وڙهڻ لاءِ AI استعمال ڪري رهيو آهي.

ماڻهو متعصب آهن

اسان وٽ مساوات جي ٻنهي پاسن تي ماڻهو آهن. ماڻهو تجزيو تيار ڪري رهيا آهن ۽ ماڻهو معلومات حاصل ڪري رهيا آهن. محقق به آهن ۽ پڙهندڙ به آهن. ڪنهن به رابطي ۾، ٽرانسميشن يا استقبال ۾ مسئلا ٿي سگهن ٿا.

موسم وٺو، مثال طور. ”مينهن جو امڪان“ ڇا مطلب آهي؟ پهرين، موسمياتي ماهرن جو مطلب ڇا آهي جڏهن اهي چون ٿا ته مينهن جو امڪان آهي؟ آمريڪي حڪومت جي مطابق قومي موسم جي خدمتمينهن جو هڪ موقعو، يا جنهن کي چوندا آهن Probability of Precipitation (PoP)، موسم جي اڳڪٿي ۾ گهٽ ۾ گهٽ سمجھيل عنصرن مان هڪ آهي. ان جي هڪ معياري وصف آهي: "ورڻ جو امڪان صرف هڪ شمارياتي امڪان آهي 0.01″ انچ [sic] جي [sic] وڌيڪ ورڻ جو هڪ ڏنل علائقي ۾ ڏنل پيشڪش واري علائقي ۾ ڏنل وقت جي مدت ۾. "ڏيل علائقو" اڳڪٿي وارو علائقو آهي، يا بroadکاسٽ علائقو. ان جو مطلب اهو آهي ته برسات جو سرڪاري امڪان ان اعتماد تي منحصر آهي ته ڪنهن علائقي ۾ برسات پوندي ۽ علائقي جو سيڪڙو جيڪو گندو ٿيندو. ٻين لفظن ۾، جيڪڏهن موسميات جو ماهر يقين رکي ٿو ته اهو اڳڪٿي واري علائقي ۾ مينهن پوڻ وارو آهي (اعتماد = 100٪)، پوء PoP ان علائقي جي حصي کي نمائندگي ڪري ٿو جيڪو مينهن حاصل ڪندو.

پئرس گهٽي؛ برساتي ڏينهن, Gustave Caillebotte (1848-1894) شکاگو آرٽ انسٽيٽيوٽ پبلڪ ڊومين

مينهن جو امڪان ٻنهي جي اعتماد ۽ علائقي تي منحصر آهي. مون کي اها خبر نه هئي. مون کي شڪ آهي ته ٻيا ماڻهو نه ڄاڻندا آهن، يا ته. اٽڪل 75٪ آبادي صحيح طور تي نه ٿو سمجهي ته PoP ڪيئن ڳڻيو وڃي ٿو، يا ان جي نمائندگي ڪرڻ جو مطلب ڇا آهي. تنهن ڪري، ڇا اسان کي بيوقوف بڻايو پيو وڃي، يا، اهو تصور جو مسئلو آهي. اچو ته ان کي ورن جو تصور سڏين. ڇا اسان موسم جي اڳڪٿي ڪندڙ کي الزام ڏيون ٿا؟ انصاف ڪرڻ لاء، اتي ڪجهه آهي مونجهارو موسم جي اڳڪٿي ڪندڙن جي وچ ۾ پڻ. هڪ ۾ سرويسروي ڪيل موسمياتي ماهرن جي 43 سيڪڙو چيو ته پي او پي جي تعريف ۾ تمام گهٽ تسلسل آهي.

تجزيا خود تعصب آهي

پنجن متاثر ڪندڙ عنصرن مان، تجزيو پاڻ کي سڀ کان وڌيڪ حيرت انگيز ٿي سگهي ٿو. سائنسي تحقيق جي نتيجي ۾ هڪ نظرثاني ٿيل پيپر شايع ٿي رهيو آهي، عام طور تي هڪ نظريو فرض ڪيو ويندو آهي، طريقن جي وضاحت ڪئي وئي آهي مفروضي کي جانچڻ لاء، ڊيٽا گڏ ڪئي وئي آهي، پوء ڊيٽا جو تجزيو ڪيو ويندو آهي. تجزيو جو قسم جيڪو ڪيو ويندو آهي ۽ اهو ڪيئن ڪيو ويندو آهي ان جي نتيجي ۾ ڪيئن اثر انداز ٿئي ٿو ان ۾ گهٽ تعريف ڪئي وئي آهي. ۾ هڪ پيپر هن سال جي شروعات ۾ شايع ٿيل (جنوري 2022)، بين الاقوامي جرنل آف ڪينسر ۾، ليکڪن جو جائزو ورتو ته ڇا بي ترتيب ٿيل ڪنٽرول آزمائشي ۽ ريٽروسپيڪٽو مشاهدي مطالعي جا نتيجا. انهن جي نتيجن جو نتيجو اهو نڪتو ته،

تقابلي اثرائتي تحقيق ۾ مختلف تجزياتي چونڊون ڪندي، اسان متضاد نتيجا پيدا ڪيا. اسان جا نتيجا پيش ڪن ٿا ته ڪجهه پوئتي موٽڻ واري مشاهدي واري مطالعي کي ڳولي سگھي ٿو هڪ علاج مريضن لاء بهتر نتيجا، جڏهن ته هڪ ٻيو ساڳيو مطالعو اهو ڳولي سگهي ٿو اهو نه آهي، صرف تجزياتي چونڊ جي بنياد تي.

ماضي ۾، جڏهن هڪ سائنسي جرنل آرٽيڪل پڙهي، جيڪڏهن توهان مون وانگر آهيو، توهان شايد سوچيو هوندو ته نتيجا يا نتيجا سڀ ڊيٽا بابت آهن. هاڻي، اهو ظاهر ٿئي ٿو ته نتيجا، يا ته ابتدائي مفروضي جي تصديق ڪئي وئي آهي يا رد ڪري سگهجي ٿي شايد تجزيو جي طريقي تي منحصر هجي.

ٻيو مطالعي ملندڙ نتيجا مليا. آرٽيڪل، ڪيترائي تجزيه نگار، هڪ ڊيٽا سيٽ: شفاف بڻائڻ ڪيئن تجزياتي چونڊ ۾ تبديليون نتيجن کي متاثر ڪن ٿيون، بيان ڪري ٿو ته انهن 29 مختلف ٽيمن کي تجزيو ڪرڻ لاءِ ساڳي ڊيٽا سيٽ ڪيئن ڏني. ڊيٽا جي تجزيي کي اڪثر ڏٺو ويندو آهي سخت، چڱي طرح بيان ڪيل عمل جيڪو هڪ ئي نتيجي تي پهچندو آهي.

طريقن جي ماهرن جي مظاهرن جي باوجود، ان حقيقت کي نظر انداز ڪرڻ آسان آهي ته نتيجن جو انحصار چونڊيل تجزياتي حڪمت عملي تي ٿي سگهي ٿو، جيڪو خود نظريي، مفروضن ۽ چونڊ نقطن سان جڙيل آهي. ڪيترين ئي صورتن ۾، ڊيٽا کي جائزو وٺڻ لاء ڪيترائي معقول (۽ ڪيترائي غير معقول) طريقا آهن جيڪي تحقيقي سوال تي برداشت ڪن ٿا.

محققن ڊيٽا جي تجزيي کي گڏ ڪيو ۽ ان نتيجي تي پهتو ته سڀني تحقيقن ۾ موضوعي فيصلا شامل آهن - بشمول ڪهڙي قسم جو تجزيو استعمال ڪيو وڃي - جيڪو مطالعي جي آخري نتيجن کي متاثر ڪري سگهي ٿو.

ٻئي جي سفارش محقق جن مٿئين مطالعي جو تجزيو ڪيو، محتاط رھڻ گھرجي جڏھن ھڪڙي ڪاغذ کي فيصلا ڪرڻ يا نتيجو ڪڍڻ ۾ استعمال ڪيو وڃي.

اينالائيٽڪس ۾ تعصب کي خطاب ڪندي

اهو صرف هڪ احتياطي ڪهاڻي هجڻ جو مطلب آهي. علم اسان کي اسڪيمن جي اندر وڃڻ کان بچائي سگهي ٿو. ممڪن طريقن کان وڌيڪ واقف هڪ اسڪينر اسان کي بيوقوف بڻائڻ لاءِ استعمال ڪري سگهي ٿو، اوترو ئي گهٽ اسان کي اندر وٺي وڃڻ جو امڪان آهي، چئو، چئو، ذريعي، چئو، هڪ pick pocket جي غلط هدايت، يا هڪ Ponzi راند جي هموار ڳالهه. تنهنڪري اهو سمجهڻ ۽ سمجهڻ سان آهي امڪاني تعصب جيڪي اسان جي تجزياتي کي متاثر ڪن ٿا. جيڪڏهن اسان امڪاني اثرن کان واقف آهيون، ته اسان ڪهاڻي کي بهتر نموني پيش ڪرڻ جي قابل ٿي سگهون ٿا ۽ آخرڪار بهتر فيصلا ڪري سگهون ٿا.

BI/Analytics Uncategorized

ايڪسل ڇو آهي #1 تجزياتي اوزار؟

اهو سستو ۽ آسان آهي. Microsoft Excel اسپريڊ شيٽ سافٽ ويئر شايد اڳ ۾ ئي انسٽال ٿيل آهي ڪاروباري صارف جي ڪمپيوٽر تي. ۽ اڄ گھڻا استعمال ڪندڙ Microsoft Office سافٽ ويئر کي ھاء اسڪول يا ان کان اڳ کان وٺي بي نقاب ڪيو ويو آھي. هن گوڏن ڀر جواب جي طور تي ...

وڌيڪ پڙهو

جان بوئر | اپريل 18، 2024 | 0

BI/Analytics Uncategorized

Unclutter your insights: a Guide to Analytics Spring Cleaning

Unclutter your insights a Guide to Analytics Spring Cleaning نئون سال هڪ ڌماڪي سان شروع ٿئي ٿو. سال جي آخر ۾ رپورٽون ٺاهيون وينديون آهن ۽ ان جي ڇنڊڇاڻ ڪئي ويندي آهي، ۽ پوءِ هرڪو مستقل ڪم جي شيڊول ۾ اچي ويندو آهي. جيئن جيئن ڏينهن ڊگھا ٿيندا وڃن ۽ وڻ ۽ گل ٽٽي ويندا، تيئن...

وڌيڪ پڙهو

شيري ويگر | اپريل 10، 2024 | 0

BI/Analytics Uncategorized

NY انداز بمقابله شکاگو انداز پيزا: هڪ لذيذ بحث

جڏهن اسان جي خواهش کي پورو ڪرڻ، ڪجهه شيون پيزا جي گرم گرم سلائس جي خوشي کي مقابلو ڪري سگهن ٿيون. نيو يارڪ طرز ۽ شڪاگو طرز جي پيزا جي وچ ۾ بحث ڪيترن ئي ڏهاڪن تائين پرجوش بحث مباحثو ڪيو آهي. هر انداز جي پنهنجي منفرد خصوصيت ۽ وقف پرستار آهن ....

وڌيڪ پڙهو

شيري ويگر | مارچ 12، 2024 | 0

BI/Analytics ڪوگنو تجزيه

توهان جا صارف چاهين ٿا انهن جو سوال اسٽوڊيو

IBM Cognos Analytics 12 جي جاري ٿيڻ سان، پڇا ڳاڇا اسٽوڊيو ۽ تجزياتي اسٽوڊيو جي ڊگھي اعلانيل فرسودگي آخرڪار Cognos Analytics مائنس انهن اسٽوڊيو جي هڪ ورزن سان پهچائي وئي. جڏهن ته ان ۾ مصروف اڪثر ماڻهن لاءِ هي تعجب نه ٿيڻ گهرجي ...

وڌيڪ پڙهو

مائڪ نورس | فيبروري 29، 2024 | 0

BI/Analytics Uncategorized

ڇا ٽيلر سوفٹ اثر حقيقي آهي؟

ڪجهه نقادن جو مشورو ڏنو ويو آهي ته هوءَ سپر باؤل ٽڪيٽ جي قيمتن ۾ اضافو ڪري رهي آهي هن هفتي جي آخر ۾ سپر باؤل ٽيليويزن جي تاريخ ۾ سڀ کان وڌيڪ ڏٺو ويو 3 واقعن مان هڪ هوندو. شايد گذريل سال جي رڪارڊ سيٽنگ انگن کان وڌيڪ ۽ شايد 1969 جي چنڊ کان به وڌيڪ ...

وڌيڪ پڙهو

جان بوئر | فيبروري 7، 2024 | 0

BI/Analytics

تجزياتي ڪيٽلاگ - تجزياتي ايڪو سسٽم ۾ هڪ اڀرندڙ ستارو

تعارف هڪ چيف ٽيڪنالاجي آفيسر (CTO) جي حيثيت سان، مان هميشه اڀرندڙ ٽيڪنالاجيز جي ڳولا ۾ آهيان جيڪي اسان جي تجزياتي طريقي کي تبديل ڪن ٿا. هڪ اهڙي ٽيڪنالاجي جنهن گذريل ڪجهه سالن کان منهنجو ڌيان ڇڪايو آهي ۽ وڏي واعدو رکي ٿو تجزياتي ...

وڌيڪ پڙهو

لانس هينڪنز | مڪيش 19، 2023 | 0

بار وڌيڪ

تجزياتي ڪوڙ

تجزياتي ڪوڙ

پيشڪش بيحد آهي

هڪ محدود ڊيٽا سيٽ ڏيکاريو

غير لاڳاپيل لاڳاپا ڏيکاريو

غلط ڊيٽا ڏيکاريو

غير روايتي طور تي ڊيٽا ڏيکاريو

ڊيٽا کي وڌيڪ آسان ڏيکاريو

ڊيٽا بيحد آهي

AI ان پٽ ۽ ٽريننگ باصلاحيت آهي

باصلاحيت الگورتھم

ماڻهو متعصب آهن

تجزيا خود تعصب آهي

اينالائيٽڪس ۾ تعصب کي خطاب ڪندي

متعلق بلاگ پوسٽون

ايڪسل ڇو آهي #1 تجزياتي اوزار؟

Unclutter your insights: a Guide to Analytics Spring Cleaning

NY انداز بمقابله شکاگو انداز پيزا: هڪ لذيذ بحث

توهان جا صارف چاهين ٿا انهن جو سوال اسٽوڊيو

ڇا ٽيلر سوفٹ اثر حقيقي آهي؟

تجزياتي ڪيٽلاگ - تجزياتي ايڪو سسٽم ۾ هڪ اڀرندڙ ستارو

هڪ ڊيمو حاصل ڪريو

مفت سافٽويئر

حل

شين

اسان جي باري ۾

شاهاڻي

سان رابطو ڪريو