বিশ্লেষণ মিথ্যা

by আগস্ট 31, 2022BI/বিশ্লেষণ0 মন্তব্য

বিশ্লেষণ মিথ্যা

বিশ্লেষণের পক্ষপাত

 

মার্ক টোয়েন বিতর্কিতভাবে এমন কিছু বলেছিলেন, "তিন ধরণের মিথ্যা: মিথ্যা, অভিশাপিত মিথ্যা এবং বৈশ্লেষিক ন্যায়. " 

আমরা মনে করি যে বিশ্লেষণ আমাদের দরকারী, কার্যকর অন্তর্দৃষ্টি দেয়। আমরা প্রায়শই যা বুঝতে পারি না তা হল কিভাবে আমাদের নিজেদের পক্ষপাতিত্ব এবং অন্যদের পক্ষপাতগুলি আমরা এমনকি সবচেয়ে পরিশীলিত সফ্টওয়্যার এবং সিস্টেম দ্বারা দেওয়া উত্তরগুলিকে প্রভাবিত করে৷ কখনও কখনও, আমরা অসাধুভাবে চালিত হতে পারি, কিন্তু, আরও সাধারণভাবে, এটি সূক্ষ্ম এবং অচেতন পক্ষপাতি হতে পারে যা আমাদের বিশ্লেষণে প্রবেশ করে। পক্ষপাতদুষ্ট বিশ্লেষণের পিছনে প্রেরণা বহুগুণ। কখনও কখনও বিজ্ঞানের কাছ থেকে আমরা যে নিরপেক্ষ ফলাফল আশা করি তা প্রভাবিত হয় 1) কীভাবে ডেটা উপস্থাপন করা হয় তার সূক্ষ্ম পছন্দগুলি, 2) অসামঞ্জস্যপূর্ণ বা অ-প্রতিনিধিত্বমূলক ডেটা, 3) কীভাবে এআই সিস্টেমগুলি প্রশিক্ষিত হয়, 4) গবেষকদের অজ্ঞতা, অযোগ্যতা বা অন্যদের চেষ্টা গল্প বলার জন্য, 5) নিজেই বিশ্লেষণ।    

উপস্থাপনা পক্ষপাতমূলক

কিছু মিথ্যা অন্যদের তুলনায় স্পট করা সহজ. যখন আপনি জানেন যে কী সন্ধান করতে হবে আপনি আরও সহজে সম্ভাব্য সনাক্ত করতে পারেন বিভ্রান্তিকর গ্রাফ এবং চার্ট। 

অন্তত আছে বিভ্রান্তিকরভাবে ডেটা প্রদর্শনের পাঁচটি উপায়: 1) একটি সীমিত ডেটা সেট দেখান, 2)। সম্পর্কহীন পারস্পরিক সম্পর্ক দেখান, 3) সঠিকভাবে ডেটা দেখান, 4) অপ্রচলিতভাবে ডেটা দেখান, বা 5)। অতিরিক্ত সরলীকৃত তথ্য দেখান।

একটি সীমিত ডেটা সেট দেখান

ডেটা সীমিত করা, বা ডেটার একটি নন-এলোমেলো বিভাগ নির্বাচন করা প্রায়শই এমন একটি গল্প বলতে পারে যা বড় ছবির সাথে সামঞ্জস্যপূর্ণ নয়। খারাপ স্যাম্পলিং, বা চেরি পিকিং, যখন বিশ্লেষক একটি বৃহত্তর গোষ্ঠীর প্রতিনিধিত্ব করার জন্য একটি অ-প্রতিনিধিত্বমূলক নমুনা ব্যবহার করে। 

মার্চ 2020, জর্জিয়ার জনস্বাস্থ্য বিভাগ দৈনিক অবস্থা প্রতিবেদনের অংশ হিসেবে এই চার্টটি প্রকাশ করেছে। এটি আসলে উত্তরের চেয়ে বেশি প্রশ্ন উত্থাপন করে।  

অনুপস্থিত জিনিসগুলির মধ্যে একটি হল প্রসঙ্গ। উদাহরণস্বরূপ, প্রতিটি বয়সের জন্য জনসংখ্যার শতাংশ কত তা জানা সহায়ক হবে। সরল-সুদর্শন পাই চার্টের সাথে আরেকটি সমস্যা হল অসম বয়সের গ্রুপ। 0-17-এর 18 বছর, 18-59-এর 42, 60+ খোলা শেষ, কিন্তু প্রায় 40 বছর আছে। উপসংহার, শুধুমাত্র এই চার্ট দেওয়া, অধিকাংশ ক্ষেত্রে 18-59 বছর বয়সী গ্রুপের হয়. 60+ বছর বয়সী গোষ্ঠী কোভিডের ক্ষেত্রে কম গুরুতরভাবে প্রভাবিত বলে মনে হচ্ছে। কিন্তু এই পুরো গল্প নয়.

তুলনা করার জন্য, এই ভিন্ন তথ্য সেট সিডিসি ওয়েব সাইট প্রতিটি বয়স সীমার মধ্যে মার্কিন জনসংখ্যার শতাংশের অতিরিক্ত ডেটা সহ বয়স গোষ্ঠী অনুসারে COVID কেসগুলি চার্ট করে।  

ইহা ভাল. আমরা আরো প্রসঙ্গ আছে. আমরা দেখতে পাচ্ছি যে 18-29, 30-39, 40-49 বয়সের সকলের ক্ষেত্রে জনসংখ্যার বয়স গোষ্ঠীর শতাংশের তুলনায় বেশি শতাংশ রয়েছে। এখনও কিছু অসম বয়সের গ্রুপিং আছে। কেন 16-17 একটি পৃথক বয়স গ্রুপ? এখনও এটি পুরো গল্প নয়, তবে পণ্ডিতরা এর চেয়ে কম বিষয়ে কলাম লিখেছেন, ভবিষ্যদ্বাণী করেছেন এবং আদেশ দিয়েছেন। স্পষ্টতই, কোভিডের সাথে, বয়স ছাড়াও অনেক পরিবর্তনশীল রয়েছে যা একটি ইতিবাচক কেস হিসাবে গণনা করাকে প্রভাবিত করে: টিকার স্থিতি, পরীক্ষার উপলব্ধতা, কতবার পরীক্ষা করা হয়েছে, সহজাত রোগ এবং আরও অনেক কিছু। মামলার সংখ্যা, নিজেই, একটি অসম্পূর্ণ ছবি প্রদান করে। বেশিরভাগ বিশেষজ্ঞ মৃত্যুর সংখ্যা, বা প্রতি 100,000 জনসংখ্যার মৃত্যুর শতাংশ, বা কেস-মৃত্যুর দিকেও তাকান যাতে প্রতিটি বয়সের গোষ্ঠীকে COVID কীভাবে প্রভাবিত করে তা দেখার জন্য।

সম্পর্কহীন পারস্পরিক সম্পর্ক দেখান

স্পষ্টতই, একটি আছে দৃ strong় সম্পর্ক বিজ্ঞান, মহাকাশ এবং প্রযুক্তিতে মার্কিন ব্যয় এবং ফাঁসি, শ্বাসরোধ এবং শ্বাসরোধ করে আত্মহত্যার সংখ্যার মধ্যে। পারস্পরিক সম্পর্ক 99.79%, প্রায় একটি নিখুঁত মিল।  

কে, যদিও, কেস করবে যে এগুলি কোনওভাবে সম্পর্কিত, বা একটি অন্যটির কারণ? অন্যান্য কম চরম উদাহরণ আছে, কিন্তু কম জালিয়াতি নেই. লেটারস ইন উইনিং ওয়ার্ড অফ স্ক্রিপস ন্যাশনাল স্পেলিং বি এবং ভেনোমাস স্পাইডার দ্বারা নিহত মানুষের সংখ্যার মধ্যে একই রকম শক্তিশালী সম্পর্ক রয়েছে। কাকতালীয়? তুমি ঠিক কর.

এই ডেটা চার্ট করার আরেকটি উপায় যা কম বিভ্রান্তিকর হতে পারে তা হল উভয় Y-অক্ষে শূন্য অন্তর্ভুক্ত করা।

সঠিকভাবে ডেটা দেখান

থেকে খারাপভাবে ডেটা কীভাবে প্রদর্শন করবেন, মার্কিন যুক্তরাষ্ট্রের জর্জিয়া রাজ্য শীর্ষ 5টি কাউন্টিগুলিকে উপস্থাপিত করেছে যেখানে সর্বাধিক সংখ্যক নিশ্চিত হওয়া COVID-19 কেস রয়েছে৷

বৈধ দেখায়, তাই না? নিশ্চিতভাবে কোভিড-১৯ মামলার নিম্নগামী প্রবণতা রয়েছে। আপনি এক্স-অক্ষ পড়তে পারেন? এক্স-অক্ষ সময়ের প্রতিনিধিত্ব করে। সাধারণত, তারিখগুলি বাম থেকে ডানে বাড়বে। এখানে, আমরা এক্স-অক্ষে একটু সময় ভ্রমণ দেখতে পাই: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

অপেক্ষা? কি? X-অক্ষ কালানুক্রমিকভাবে সাজানো হয় না। সুতরাং, প্রবণতা দেখতে যতটা সুন্দর হতে পারে, আমরা কোন সিদ্ধান্তে আঁকতে পারি না। যদি তারিখগুলি অর্ডার করা হয়, মামলার সংখ্যার জন্য বারগুলি যেকোন ধরণের প্রবণতার চেয়ে একটি sawtooth প্যাটার্ন বেশি দেখায়৷

এখানে সহজ সমাধান হল একটি ক্যালেন্ডারের মতো তারিখগুলি সাজানো।

অপ্রচলিতভাবে ডেটা দেখান

আমরা সবাই ব্যস্ত. আমাদের মস্তিষ্ক আমাদের পৃথিবীতে সামঞ্জস্যপূর্ণ অনুমানের উপর ভিত্তি করে দ্রুত বিচার করতে শিখিয়েছে। উদাহরণস্বরূপ, আমার দেখা প্রতিটি গ্রাফ দেখায় x- এবং y- অক্ষ শূন্যে বা সর্বনিম্ন মান। এই চার্টটি সংক্ষিপ্তভাবে দেখে, আপনি ফ্লোরিডার প্রভাব সম্পর্কে কী সিদ্ধান্ত নিতে পারেন "আপনার গ্রাউন্ড আইন দাঁড়ানো."? আমি এটা স্বীকার করতে লজ্জিত, কিন্তু এই গ্রাফটি প্রথমে আমাকে বোকা বানিয়েছিল। আপনার চোখ সুবিধামত গ্রাফিকের মাঝখানে টেক্সট এবং তীর আঁকা হয়. এই গ্রাফে ডাউন উপরে। এটা মিথ্যা নাও হতে পারে - তথ্য সব ঠিক আছে. কিন্তু, আমাকে ভাবতে হবে যে এটা প্রতারণা করার জন্য। আপনি যদি এটি এখনও না দেখে থাকেন তবে y-অক্ষের শূন্য শীর্ষে রয়েছে। সুতরাং, ডেটা প্রবণতা কম হওয়ায় এর অর্থ আরও বেশি মৃত্যু। এই চার্ট দেখায় যে আগ্নেয়াস্ত্র ব্যবহার করে হত্যার সংখ্যা বর্ধিত 2005 এর পরে, প্রবণতা যাচ্ছে দ্বারা নির্দেশিত নিচে.

অতিরিক্ত সরলীকৃত তথ্য দেখান

তথ্যের অতি-সরলীকরণের একটি উদাহরণ দেখা যায় যখন বিশ্লেষকরা সিম্পসনের প্যারাডক্সের সুবিধা নেন। এটি এমন একটি ঘটনা যা ঘটে যখন সমষ্টিগত ডেটা উপসেটে বিভক্ত হওয়ার চেয়ে একটি ভিন্ন উপসংহার প্রদর্শন করে। উচ্চ-স্তরের সমষ্টিগত শতাংশের দিকে তাকালে এই ফাঁদে পড়া সহজ। কর্মক্ষেত্রে সিম্পসনের প্যারাডক্সের একটি স্পষ্ট চিত্রের সাথে সম্পর্কিত ব্যাটিং গড়.  

এখানে আমরা দেখতে পাই যে 1995 এবং 1996 মৌসুমে ডেভিড জাস্টিসের চেয়ে ডেরেক জেটারের সামগ্রিক ব্যাটিং গড় বেশি। প্যারাডক্স আসে যখন আমরা বুঝতে পারি যে বিচারপতি জেটারকে সেই দুই বছরের ব্যাটিং গড় সেরা করেছিলেন। আপনি যদি মনোযোগ সহকারে তাকান, তাহলে এটা বোঝা যায় যখন আপনি বুঝতে পারবেন যে জেটারের 4 সালে .1996 কম গড়ে প্রায় 007 গুণ বেশি অ্যাট-ব্যাট (ডিনমিনেটর) ছিল। যেখানে, ন্যায়বিচারে অ্যাট-ব্যাটের সংখ্যা প্রায় 1996 গুণ ছিল। 10 সালে 003 উচ্চতর গড়।

উপস্থাপনাটি সহজবোধ্য বলে মনে হচ্ছে, কিন্তু সিম্পসনের প্যারাডক্স, ইচ্ছাকৃতভাবে বা অনিচ্ছাকৃতভাবে, ভুল সিদ্ধান্তের দিকে নিয়ে গেছে। সম্প্রতি, খবরে এবং সোশ্যাল মিডিয়ায় ভ্যাকসিন এবং কোভিড মৃত্যুহার সম্পর্কিত সিম্পসনের প্যারাডক্সের উদাহরণ রয়েছে। এক তালিকা 10-59 বছর বয়সী লোকেদের জন্য টিকা দেওয়া এবং টিকাবিহীন মৃত্যুর হার তুলনা করে একটি লাইন গ্রাফ দেখায়। চার্টটি দেখায় যে টিকা না দেওয়াদের ধারাবাহিকভাবে মৃত্যুর হার কম থাকে। এখানে কি হচ্ছে?  

ব্যাটিং গড় নিয়ে আমরা যেটা দেখি সেটার মতোই সমস্যা। এই ক্ষেত্রে হর হল প্রতিটি বয়সের ব্যক্তির সংখ্যা। গ্রাফটি বিভিন্ন ফলাফল আছে এমন গোষ্ঠীগুলিকে একত্রিত করে। যদি আমরা বয়স্কদের দিকে তাকাই, 50-59, আলাদাভাবে, আমরা দেখতে পাই যে টিকা দেওয়া ভাড়া আরও ভাল। একইভাবে, যদি আমরা 10-49 এর দিকে তাকাই, আমরাও দেখতে পাই যে ভ্যাকসিন করা ভাড়া আরও ভাল। অস্বাভাবিকভাবে, সম্মিলিত সেটের দিকে তাকালে, টিকাবিহীনের একটি খারাপ ফলাফল রয়েছে বলে মনে হয়। এইভাবে, আপনি ডেটা ব্যবহার করে বিপরীত আর্গুমেন্টের জন্য একটি কেস তৈরি করতে পারবেন।

ডেটা পক্ষপাতমূলক

ডেটা সবসময় বিশ্বাস করা যায় না। এমনকি বৈজ্ঞানিক সম্প্রদায়ের মধ্যে, এক তৃতীয়াংশেরও বেশি গবেষক জরিপে স্বীকার করেছেন "সন্দেহজনক গবেষণা অনুশীলন।"  অন্য গবেষণা জালিয়াতি গোয়েন্দা বলেছেন, “ডেটাতে খুব সম্ভবত অনেক বেশি জালিয়াতি আছে – টেবিল, লাইন গ্রাফ, সিকোয়েন্সিং ডেটা [- আমরা আসলে আবিষ্কার করছি]। তাদের রান্নাঘরের টেবিলে বসে থাকা যে কেউ একটি স্প্রেডশীটে কিছু সংখ্যা রাখতে পারে এবং একটি লাইন গ্রাফ তৈরি করতে পারে যা বিশ্বাসযোগ্য দেখায়।"

এই প্রথম উদাহরণ মনে হচ্ছে কেউ এটা করেছে। আমি বলছি না এটি জালিয়াতি, কিন্তু একটি সমীক্ষা হিসাবে, এটি এমন কোনও ডেটা তৈরি করে না যা একটি জ্ঞাত সিদ্ধান্তে অবদান রাখে৷ দেখে মনে হচ্ছে সমীক্ষাটি উত্তরদাতাদের গ্যাস স্টেশন কফি বা অন্য কোনো প্রাসঙ্গিক বর্তমান ইভেন্ট সম্পর্কে তাদের মতামত সম্পর্কে জিজ্ঞাসা করেছে। 

  1. চমত্কার 
  2. খেলার
  3. খুব ভালো 

আমি দোষী পক্ষের রেফারেন্স মুছে ফেলার জন্য টুইটার পোস্টটি ক্রপ করেছি, কিন্তু এটি সমীক্ষার চূড়ান্ত ফলাফলের প্রকৃত সম্পূর্ণ চার্ট। এই ধরনের সমীক্ষা অস্বাভাবিক নয়। স্পষ্টতই, প্রতিক্রিয়াগুলির ফলে ডেটা থেকে তৈরি যে কোনও চার্ট দেখাবে যে প্রশ্নে থাকা কফিটি মিস করা উচিত নয়৷  

সমস্যা হল যে যদি আপনাকে এই সমীক্ষা দেওয়া হয় এবং আপনার চিন্তার সাথে মানানসই কোনো প্রতিক্রিয়া খুঁজে না পান, তাহলে আপনি সমীক্ষাটি এড়িয়ে যেতেন। এটি কীভাবে অবিশ্বস্ত ডেটা তৈরি করা যায় তার একটি চরম উদাহরণ হতে পারে। দুর্বল সমীক্ষা নকশা, তবে, কম প্রতিক্রিয়ার দিকে পরিচালিত করতে পারে এবং যারা প্রতিক্রিয়া জানায় তাদের কেবল একটি মতামত থাকে, এটি কেবলমাত্র ডিগ্রির ব্যাপার। তথ্য পক্ষপাতমূলক.

ডেটা পক্ষপাতের এই দ্বিতীয় উদাহরণটি "এর ফাইলগুলি থেকেসবচেয়ে খারাপ COVID 19 বিভ্রান্তিকর গ্রাফ. " 

আবার, এটি সূক্ষ্ম এবং সম্পূর্ণরূপে সুস্পষ্ট নয়। বার গ্রাফটি ফ্লোরিডার একটি কাউন্টির জন্য সময়ের সাথে সাথে একটি মসৃণ - প্রায় খুব মসৃণ - পজিটিভ COVID-19 কেসের শতাংশে হ্রাস দেখায়। আপনি সহজেই উপসংহার টানতে পারেন যে মামলাগুলি হ্রাস পাচ্ছে। এটি দুর্দান্ত, ভিজ্যুয়ালাইজেশন সঠিকভাবে ডেটা উপস্থাপন করে। সমস্যা ডাটাতে। সুতরাং, এটি একটি আরও প্রতারক পক্ষপাত কারণ আপনি এটি দেখতে পাচ্ছেন না। এটা তথ্য মধ্যে বেক করা হয়. আপনাকে যে প্রশ্নগুলি জিজ্ঞাসা করতে হবে, অন্তর্ভুক্ত, কাকে পরীক্ষা করা হচ্ছে? অন্য কথায়, হর কী, বা জনসংখ্যা যা আমরা শতাংশের দিকে তাকাচ্ছি। অনুমান হল যে এটি সমগ্র জনসংখ্যা, বা অন্তত, একটি প্রতিনিধি নমুনা।

যাইহোক, এই সময়ের মধ্যে, এই কাউন্টিতে, পরীক্ষা শুধুমাত্র সীমিত সংখ্যক লোককে দেওয়া হয়েছিল। তাদের কোভিড-এর মতো উপসর্গ থাকতে হয়েছিল, বা হট স্পটগুলির তালিকায় থাকা একটি দেশে সম্প্রতি ভ্রমণ করেছিলেন। অতিরিক্ত ফলাফলগুলিকে বিভ্রান্ত করার বিষয়টি হল যে প্রতিটি ইতিবাচক পরীক্ষা গণনা করা হয়েছে এবং প্রতিটি নেতিবাচক পরীক্ষা গণনা করা হয়েছে। সাধারণত, যখন একজন ব্যক্তি ইতিবাচক পরীক্ষা করে, তারা আবার পরীক্ষা করবে যখন ভাইরাসটি তার গতিপথ চালাবে এবং নেতিবাচক পরীক্ষা করবে। সুতরাং, এক অর্থে, প্রতিটি ইতিবাচক ক্ষেত্রে, একটি নেতিবাচক পরীক্ষার ক্ষেত্রে রয়েছে যা এটি বাতিল করে দেয়। বেশিরভাগ পরীক্ষা নেতিবাচক এবং প্রতিটি ব্যক্তির নেতিবাচক পরীক্ষা গণনা করা হয়েছিল। আপনি দেখতে পাচ্ছেন কিভাবে ডেটা পক্ষপাতদুষ্ট এবং সিদ্ধান্ত নেওয়ার জন্য বিশেষভাবে উপযোগী নয়। 

এআই ইনপুট এবং প্রশিক্ষণ পক্ষপাতমূলক

কমপক্ষে দুটি উপায় রয়েছে যাতে AI পক্ষপাতদুষ্ট ফলাফলের দিকে নিয়ে যেতে পারে: পক্ষপাতমূলক ডেটা দিয়ে শুরু করা, অথবা বৈধ ডেটা প্রক্রিয়া করার জন্য পক্ষপাতদুষ্ট অ্যালগরিদম ব্যবহার করা৷  

পক্ষপাতমূলক ইনপুট

আমরা অনেকেই মনে করি যে AI-কে বিশ্বাস করা যেতে পারে সংখ্যাগুলিকে ক্রাঞ্চ করতে, এর অ্যালগরিদমগুলি প্রয়োগ করতে এবং ডেটার একটি নির্ভরযোগ্য বিশ্লেষণ করতে। কৃত্রিম বুদ্ধিমত্তা শুধুমাত্র প্রশিক্ষিত হিসাবে স্মার্ট হতে পারে। যে ডেটাতে এটি প্রশিক্ষিত হয় তা যদি অসম্পূর্ণ হয় তবে ফলাফল বা উপসংহারগুলিও বিশ্বাস করা যাবে না। উপরের সমীক্ষা পক্ষপাতের ক্ষেত্রে অনুরূপ, ডেটা হতে পারে এমন অনেকগুলি উপায় রয়েছে৷ পক্ষপাতদুষ্ট মেশিন লার্নিং এ:.  

  • নমুনা পক্ষপাত - প্রশিক্ষণ ডেটাসেট সমগ্র জনসংখ্যার প্রতিনিধি নয়।
  • বর্জনীয় পক্ষপাতিত্ব - কখনও কখনও যা বহিরাগত বলে মনে হয় তা আসলে বৈধ, বা, যেখানে আমরা কী অন্তর্ভুক্ত করতে হবে তার উপর লাইন আঁকি (জিপ কোড, তারিখ, ইত্যাদি)।
  • পরিমাপের পক্ষপাত - নিয়ম হল মেনিস্কাসের কেন্দ্র এবং নীচের দিক থেকে পরিমাপ করা, উদাহরণস্বরূপ, যখন ভলিউম্যাট্রিক ফ্লাস্ক বা টেস্ট টিউবে তরল পরিমাপ করা হয় (পারদ ব্যতীত।)
  • পক্ষপাত স্মরণ করুন - যখন গবেষণা অংশগ্রহণকারীদের স্মৃতির উপর নির্ভর করে।
  • পর্যবেক্ষক পক্ষপাত - বিজ্ঞানীরা, সমস্ত মানুষের মতো, তারা যা দেখার প্রত্যাশা করেন তা দেখতে বেশি ঝুঁকছেন।
  • লিঙ্গবাদী এবং বর্ণবাদী পক্ষপাত - লিঙ্গ বা জাতি বেশি বা কম প্রতিনিধিত্ব করতে পারে।  
  • অ্যাসোসিয়েশন পক্ষপাত - ডেটা স্টেরিওটাইপগুলিকে শক্তিশালী করে

AI-এর নির্ভরযোগ্য ফলাফলের জন্য, এর প্রশিক্ষণের ডেটা বাস্তব বিশ্বের প্রতিনিধিত্ব করতে হবে। যেমনটি আমরা পূর্ববর্তী ব্লগ নিবন্ধে আলোচনা করেছি, ডেটা প্রস্তুত করা গুরুত্বপূর্ণ এবং অন্যান্য ডেটা প্রকল্পের মতো। অবিশ্বস্ত ডেটা মেশিন লার্নিং সিস্টেমকে ভুল শিক্ষা দিতে পারে এবং এর ফলে ভুল উপসংহারে আসতে পারে। এটি বলেছিল, "সমস্ত ডেটা পক্ষপাতমূলক। এটা প্যারানিয়া নয়। এই সত্য." - ডাঃ সঞ্জীব এম. নারায়ণ, স্ট্যানফোর্ড ইউনিভার্সিটি স্কুল অফ মেডিসিন।

প্রশিক্ষণের জন্য পক্ষপাতমূলক ডেটা ব্যবহার করার ফলে বেশ কয়েকটি উল্লেখযোগ্য AI ব্যর্থতা হয়েছে। (উদাহরণ এখানে এবং এখানে, গবেষণা এখানে..)

পক্ষপাতদুষ্ট অ্যালগরিদম

একটি অ্যালগরিদম হল নিয়মগুলির একটি সেট যা একটি ইনপুট গ্রহণ করে এবং একটি ব্যবসায়িক সমস্যার উত্তর দেওয়ার জন্য আউটপুট তৈরি করে। তারা প্রায়ই ভাল-সংজ্ঞায়িত সিদ্ধান্ত গাছ করছি. অ্যালগরিদম ব্ল্যাক বক্সের মত মনে হয়। কেউ নিশ্চিত নয় যে তারা কীভাবে কাজ করে, প্রায়শই, এমনকি নয় যে কোম্পানিগুলি তাদের ব্যবহার করে. ওহ, এবং তারা প্রায়ই মালিকানাধীন. তাদের রহস্যময় এবং জটিল প্রকৃতি পক্ষপাতদুষ্ট অ্যালগরিদমগুলি এত ছলনাময় হওয়ার একটি কারণ। . 

মেডিসিন, এইচআর বা ফিনান্সে AI অ্যালগরিদম বিবেচনা করুন যা জাতি বিবেচনায় নেয়। যদি জাতি একটি ফ্যাক্টর হয়, অ্যালগরিদম জাতিগতভাবে অন্ধ হতে পারে না। এটি তাত্ত্বিক নয়। এআই ইন ব্যবহার করে বাস্তব জগতে এই ধরনের সমস্যা আবিষ্কৃত হয়েছে হায়ারিং, রাইড শেয়ার, ঋণ আবেদনগুলি, এবং কিডনি ট্রান্সপ্ল্যান্টস

নীচের লাইন হল যে যদি আপনার ডেটা বা অ্যালগরিদমগুলি খারাপ হয়, অকেজো থেকে খারাপ হয়, তবে সেগুলি বিপজ্জনক হতে পারে। যেমন একটি জিনিস আছে "অ্যালগরিদমিক নিরীক্ষা" লক্ষ্য হল সংস্থাগুলিকে অ্যালগরিদম সম্পর্কিত সম্ভাব্য ঝুঁকিগুলি সনাক্ত করতে সহায়তা করা কারণ এটি ন্যায়সঙ্গততা, পক্ষপাত এবং বৈষম্যের সাথে সম্পর্কিত। অন্যত্র, ফেসবুক AI-তে পক্ষপাতের বিরুদ্ধে লড়াই করতে AI ব্যবহার করছে।

মানুষ পক্ষপাতদুষ্ট

আমাদের সমীকরণের উভয় দিকের লোক রয়েছে। লোকেরা বিশ্লেষণ প্রস্তুত করছে এবং লোকেরা তথ্য পাচ্ছে। গবেষক আছেন, পাঠকও আছেন। যেকোনো যোগাযোগে, সংক্রমণ বা অভ্যর্থনা সমস্যা হতে পারে।

উদাহরণস্বরূপ, আবহাওয়া নিন। "বৃষ্টির সম্ভাবনা" মানে কি? প্রথমত, আবহাওয়াবিদরা যখন বলে যে বৃষ্টির সম্ভাবনা আছে তখন কী বোঝায়? মার্কিন সরকারের মতে জাতীয় আবহাওয়া পরিষেবা, বৃষ্টির সম্ভাবনা, বা যাকে তারা বলে প্রবেবিলিটি অফ রেসিপিটেশন (PoP), আবহাওয়ার পূর্বাভাসের সবচেয়ে কম বোঝার উপাদানগুলির মধ্যে একটি। এটির একটি আদর্শ সংজ্ঞা আছে: "বর্ষণের সম্ভাব্যতা কেবলমাত্র একটি পরিসংখ্যানগত সম্ভাবনা 0.01″ ইঞ্চি [sic] এর [sic] একটি প্রদত্ত অঞ্চলে নির্দিষ্ট সময়ের মধ্যে প্রদত্ত পূর্বাভাস এলাকায় বৃষ্টিপাতের বেশি।" "প্রদত্ত এলাকা" হল পূর্বাভাস এলাকা, বা খroadঢালাই এলাকা। এর মানে হল যে বৃষ্টিপাতের অফিসিয়াল সম্ভাব্যতা এই আত্মবিশ্বাসের উপর নির্ভর করে যে এলাকায় কোথাও বৃষ্টি হবে এবং কত শতাংশ এলাকা ভিজে যাবে। অন্য কথায়, আবহাওয়াবিদ যদি নিশ্চিত হন যে এটি পূর্বাভাস এলাকায় বৃষ্টি হতে চলেছে (আস্থা = 100%), তাহলে PoP সেই অঞ্চলের অংশকে প্রতিনিধিত্ব করে যেখানে বৃষ্টি হবে।  

প্যারিস স্ট্রিট; বৃষ্টির দিন,গুস্তাভ ক্যালিবোট (1848-1894) শিকাগো আর্ট ইনস্টিটিউট পাবলিক ডোমেইন

বৃষ্টির সম্ভাবনা আস্থা এবং এলাকা উভয়ের উপর নির্ভর করে। আমি যে জানি না। আমি সন্দেহ করি যে অন্য লোকেরা তা জানে না। জনসংখ্যার প্রায় 75% সঠিকভাবে বুঝতে পারে না কিভাবে PoP গণনা করা হয়, বা এটির প্রতিনিধিত্ব করার অর্থ কী। তাহলে, আমরা কি বোকা বানাচ্ছি, নাকি এটা উপলব্ধির সমস্যা। আসুন একে বলি বৃষ্টিপাতের উপলব্ধি। আমরা কি আবহাওয়ার পূর্বাভাসককে দায়ী করব? ন্যায্য হতে, কিছু আছে বিশৃঙ্খলা আবহাওয়ার পূর্বাভাসকারীদের মধ্যেও। একটি জরিপ, জরিপ করা আবহাওয়াবিদদের 43% বলেছেন যে PoP এর সংজ্ঞাতে খুব কম সামঞ্জস্য রয়েছে।

বিশ্লেষণ নিজেই পক্ষপাতমূলক

পাঁচটি প্রভাবশালী কারণের মধ্যে, বিশ্লেষণ নিজেই সবচেয়ে আশ্চর্যজনক হতে পারে। বৈজ্ঞানিক গবেষণার ফলে একটি পর্যালোচনা করা কাগজ প্রকাশিত হয়, সাধারণত একটি তত্ত্ব অনুমান করা হয়, অনুমান পরীক্ষা করার জন্য পদ্ধতিগুলি সংজ্ঞায়িত করা হয়, ডেটা সংগ্রহ করা হয়, তারপর ডেটা বিশ্লেষণ করা হয়। বিশ্লেষণের ধরন এবং এটি কীভাবে করা হয় তা কীভাবে উপসংহারগুলিকে প্রভাবিত করে তা কম মূল্যায়ন করা হয়। ক কাগজ এই বছরের শুরুতে (জানুয়ারি 2022) প্রকাশিত, ইন্টারন্যাশনাল জার্নাল অফ ক্যান্সারে, লেখকরা এলোমেলোভাবে নিয়ন্ত্রিত ট্রায়াল এবং পূর্ববর্তী পর্যবেক্ষণমূলক গবেষণার ফলাফলগুলি মূল্যায়ন করেছেন। তাদের অনুসন্ধানে এই সিদ্ধান্তে উপনীত হয়েছে যে,

তুলনামূলক কার্যকারিতা গবেষণায় বিভিন্ন বিশ্লেষণমূলক পছন্দের মাধ্যমে, আমরা বিপরীত ফলাফল তৈরি করেছি। আমাদের ফলাফলগুলি পরামর্শ দেয় যে কিছু পূর্ববর্তী পর্যবেক্ষণমূলক অধ্যয়নগুলি রোগীদের জন্য একটি চিকিত্সার ফলাফলকে উন্নত করতে পারে, অন্য একটি অনুরূপ গবেষণায় এটি কেবল বিশ্লেষণাত্মক পছন্দগুলির উপর ভিত্তি করে পাওয়া যায় না।

অতীতে, একটি বৈজ্ঞানিক জার্নাল নিবন্ধ পড়ার সময়, আপনি যদি আমার মতো হন, আপনি হয়তো ভেবেছিলেন যে ফলাফল বা উপসংহারগুলি সমস্ত ডেটা সম্পর্কে। এখন, দেখা যাচ্ছে যে ফলাফলগুলি, বা প্রাথমিক অনুমানটি নিশ্চিত বা খণ্ডন করাও বিশ্লেষণের পদ্ধতির উপর নির্ভর করতে পারে।

অন্য অধ্যয়ন অনুরূপ ফলাফল পাওয়া গেছে। প্রবন্ধ, অনেক বিশ্লেষক, একটি ডেটা সেট: বিশ্লেষণাত্মক পছন্দগুলির পরিবর্তনগুলি ফলাফলকে কীভাবে প্রভাবিত করে তা স্বচ্ছ করা, বিশ্লেষণ করার জন্য তারা 29টি ভিন্ন দলকে একই ডেটা সেট কীভাবে দিয়েছে তা বর্ণনা করে। ডেটা বিশ্লেষণকে প্রায়ই একটি কঠোর, সু-সংজ্ঞায়িত প্রক্রিয়া হিসাবে দেখা হয় যা একটি একক উপসংহারে নিয়ে যায়।  

মেথডলজিস্টদের রিমনস্ট্রেশন সত্ত্বেও, এই সত্যটিকে উপেক্ষা করা সহজ যে ফলাফলগুলি নির্বাচিত বিশ্লেষণাত্মক কৌশলের উপর নির্ভর করতে পারে, যা নিজেই তত্ত্ব, অনুমান এবং পছন্দের পয়েন্টগুলির সাথে জড়িত। অনেক ক্ষেত্রে, অনেক যুক্তিযুক্ত (এবং অনেক অযৌক্তিক) তথ্য মূল্যায়ন করার পদ্ধতি রয়েছে যা একটি গবেষণা প্রশ্নে বহন করে।

গবেষকরা তথ্যের বিশ্লেষণে ভিড়-উৎসর্গ করেন এবং এই সিদ্ধান্তে উপনীত হন যে সমস্ত গবেষণায় বিষয়ভিত্তিক সিদ্ধান্ত অন্তর্ভুক্ত থাকে - কোন ধরনের বিশ্লেষণ ব্যবহার করা সহ - যা অধ্যয়নের চূড়ান্ত ফলাফলকে প্রভাবিত করতে পারে।

অন্যের সুপারিশ গবেষক যারা উপরোক্ত অধ্যয়নটি বিশ্লেষণ করেছেন তাদের সিদ্ধান্ত নেওয়া বা উপসংহার আঁকার ক্ষেত্রে একটি কাগজ ব্যবহার করার সময় সতর্ক হতে হবে।

অ্যানালিটিক্সে বায়াস অ্যাড্রেসিং

এটি কেবল একটি সতর্কতামূলক গল্প বলে বোঝানো হয়েছে। জ্ঞান আমাদের কেলেঙ্কারীর মধ্যে নেওয়া থেকে রক্ষা করতে পারে। একটি স্ক্যানার আমাদের বোকা বানানোর সম্ভাব্য পদ্ধতিগুলি সম্পর্কে যত বেশি সচেতন, আমাদের পকেটের ভুল নির্দেশনা বা পঞ্জি খেলার মসৃণ কথাবার্তার মধ্যে নেওয়ার সম্ভাবনা তত কম। সুতরাং এটি সম্ভাব্য পক্ষপাতগুলি বোঝার এবং স্বীকৃতি দিয়ে যা আমাদের বিশ্লেষণকে প্রভাবিত করে। আমরা সম্ভাব্য প্রভাব সম্পর্কে সচেতন হলে, আমরা গল্পটি আরও ভালভাবে উপস্থাপন করতে এবং শেষ পর্যন্ত আরও ভাল সিদ্ধান্ত নিতে সক্ষম হতে পারি।  

BI/বিশ্লেষণইসলাম
মাইক্রোসফ্ট এক্সেল কেন # 1 বিশ্লেষণ সরঞ্জাম
এক্সেল কেন #1 অ্যানালিটিক্স টুল?

এক্সেল কেন #1 অ্যানালিটিক্স টুল?

  এটা সস্তা এবং সহজ. Microsoft Excel স্প্রেডশীট সফ্টওয়্যার সম্ভবত ইতিমধ্যেই ব্যবসা ব্যবহারকারীর কম্পিউটারে ইনস্টল করা আছে। এবং আজ অনেক ব্যবহারকারী হাই স্কুল বা তারও আগে থেকে মাইক্রোসফ্ট অফিস সফ্টওয়্যারের সংস্পর্শে এসেছেন। এই হাঁটু ঝাঁকুনি প্রতিক্রিয়া হিসাবে...

আরও বিস্তারিত!

BI/বিশ্লেষণইসলাম
আপনার অন্তর্দৃষ্টিগুলি আনক্লাটার করুন: অ্যানালিটিক্স স্প্রিং ক্লিনিংয়ের জন্য একটি গাইড৷

আপনার অন্তর্দৃষ্টিগুলি আনক্লাটার করুন: অ্যানালিটিক্স স্প্রিং ক্লিনিংয়ের জন্য একটি গাইড৷

আপনার অন্তর্দৃষ্টি আনক্লাটার করুন অ্যানালিটিক্স স্প্রিং ক্লিনিং-এর জন্য একটি গাইড নতুন বছর একটি ধামাকা দিয়ে শুরু হয়; বছরের শেষের প্রতিবেদনগুলি তৈরি করা হয় এবং যাচাই করা হয় এবং তারপরে প্রত্যেকে একটি সামঞ্জস্যপূর্ণ কাজের সময়সূচীতে স্থির হয়। দিন যত দীর্ঘ হচ্ছে এবং গাছ ও ফুল ফুটেছে,...

আরও বিস্তারিত!

BI/বিশ্লেষণইসলাম
NY স্টাইল বনাম শিকাগো স্টাইল পিজা: একটি সুস্বাদু বিতর্ক

NY স্টাইল বনাম শিকাগো স্টাইল পিজা: একটি সুস্বাদু বিতর্ক

আমাদের আকাঙ্ক্ষা পূরণ করার সময়, কিছু জিনিস পিজ্জার একটি পাইপিং গরম স্লাইসের আনন্দকে প্রতিদ্বন্দ্বিতা করতে পারে। নিউ ইয়র্ক-স্টাইল এবং শিকাগো-স্টাইলের পিজ্জার মধ্যে বিতর্ক কয়েক দশক ধরে আবেগপূর্ণ আলোচনার জন্ম দিয়েছে। প্রতিটি শৈলীর নিজস্ব স্বতন্ত্র বৈশিষ্ট্য এবং ভক্ত অনুরাগী রয়েছে।

আরও বিস্তারিত!

BI/বিশ্লেষণকগনোস অ্যানালিটিক্স
Cognos কোয়েরি স্টুডিও
আপনার ব্যবহারকারীরা তাদের প্রশ্ন স্টুডিও চান

আপনার ব্যবহারকারীরা তাদের প্রশ্ন স্টুডিও চান

IBM Cognos Analytics 12-এর প্রকাশের সাথে, Query Studio এবং Analysis Studio-এর দীর্ঘ-ঘোষিত অবচয় শেষ পর্যন্ত সেই স্টুডিওগুলিকে বাদ দিয়ে Cognos Analytics-এর একটি সংস্করণ দিয়ে দেওয়া হয়েছিল। যদিও এতে নিযুক্ত বেশিরভাগ লোকের কাছে এটি অবাক হওয়ার মতো নয় ...

আরও বিস্তারিত!

BI/বিশ্লেষণইসলাম
টেলর সুইফট ইফেক্ট কি বাস্তব?

টেলর সুইফট ইফেক্ট কি বাস্তব?

কিছু সমালোচক পরামর্শ দেন যে তিনি সুপার বোল টিকিটের দাম বাড়াচ্ছেন এই সপ্তাহান্তের সুপার বোলটি টেলিভিশনের ইতিহাসে শীর্ষ 3টি সর্বাধিক দেখা ইভেন্টের একটি হবে বলে আশা করা হচ্ছে৷ সম্ভবত গত বছরের রেকর্ড-সেটিং সংখ্যার চেয়ে বেশি এবং সম্ভবত 1969 সালের চাঁদের চেয়েও বেশি...

আরও বিস্তারিত!

BI/বিশ্লেষণ
অ্যানালিটিক্স ক্যাটালগ - অ্যানালিটিক্স ইকোসিস্টেমের একটি উদীয়মান তারকা৷

অ্যানালিটিক্স ক্যাটালগ - অ্যানালিটিক্স ইকোসিস্টেমের একটি উদীয়মান তারকা৷

ভূমিকা একজন প্রধান প্রযুক্তি কর্মকর্তা (CTO) হিসাবে, আমি সর্বদা উদীয়মান প্রযুক্তিগুলির সন্ধানে থাকি যা আমরা বিশ্লেষণের সাথে যোগাযোগ করার উপায়কে রূপান্তরিত করি। এরকম একটি প্রযুক্তি যা গত কয়েক বছরে আমার দৃষ্টি আকর্ষণ করেছে এবং প্রচুর প্রতিশ্রুতি ধারণ করেছে তা হল অ্যানালিটিক্স...

আরও বিস্তারিত!