دروغ تحلیلی

by جان بویراوت 31، 2022BI/Analyticsنظر 0

دروغ تحلیلی

سوگیری تحلیل

مارک تواین به طرز بحث انگیزی چیزی شبیه این گفت: «سه نوع دروغ وجود دارد: دروغ، دروغ لعنتی و علم تجزیه و تحلیل"

ما بدیهی می دانیم که تجزیه و تحلیل به ما بینش مفید و عملی می دهد. چیزی که ما اغلب متوجه نمی شویم این است که چگونه تعصبات خودمان و دیگران بر پاسخ هایی که حتی پیچیده ترین نرم افزارها و سیستم ها به ما می دهند تأثیر می گذارد. گاهی اوقات، ممکن است ما به طور غیر صادقانه دستکاری شویم، اما، معمولاً، ممکن است تعصبات ظریف و ناخودآگاه در تجزیه و تحلیل ما رخنه کند. انگیزه پشت تجزیه و تحلیل مغرضانه چندگانه است. گاهی اوقات نتایج بی‌طرفانه‌ای که از علم انتظار داریم تحت تأثیر 1) انتخاب‌های ظریف در نحوه ارائه داده‌ها، 2) داده‌های متناقض یا غیرنماینده، 3) نحوه آموزش سیستم‌های هوش مصنوعی، 4) ناآگاهی، بی‌کفایتی محققان یا دیگران برای گفتن داستان، 5) خود تحلیل.

ارائه مغرضانه است

تشخیص برخی از دروغ ها آسان تر از دیگران است. وقتی می دانید به دنبال چه چیزی باشید، ممکن است به راحتی تشخیص دهید نمودارها و نمودارهای گمراه کننده

حداقل وجود دارد پنج راه برای نمایش گمراه کننده داده ها: 1) نمایش یک مجموعه داده محدود، 2). نمایش همبستگی های نامرتبط، 3) نمایش داده ها به صورت نادرست، 4) نمایش داده ها به صورت غیر متعارف، یا 5). نمایش داده ها بیش از حد ساده شده است.

نمایش یک مجموعه داده محدود

محدود کردن داده‌ها یا انتخاب دستی بخش غیر تصادفی از داده‌ها اغلب می‌تواند داستانی را بیان کند که با تصویر بزرگ سازگار نیست. نمونه برداری بد یا چیدن گیلاس زمانی است که تحلیلگر از یک نمونه غیرنماینده برای نشان دادن یک گروه بزرگتر استفاده می کند.

در ماه مارس 2020، اداره بهداشت عمومی گرجستان این نمودار را به عنوان بخشی از گزارش وضعیت روزانه خود منتشر کرد. در واقع بیشتر از آن که پاسخ دهد سوالاتی را ایجاد می کند.

یکی از مواردی که گم شده، زمینه است. برای مثال، دانستن اینکه درصد جمعیت برای هر گروه سنی چقدر است مفید خواهد بود. یکی دیگر از مسائل مربوط به نمودار دایره ای ساده، گروه های سنی ناهموار است. 0-17 دارای 18 سال، 18-59 دارای 42، 60+ پایان باز است، اما حدود 40 سال دارد. نتیجه گیری تنها با توجه به این نمودار این است که اکثر موارد در گروه سنی 18 تا 59 سال قرار دارند. به نظر می رسد گروه سنی بالای 60 سال کمتر تحت تأثیر موارد کووید قرار می گیرند. اما این تمام ماجرا نیست.

برای مقایسه، این مجموعه داده های مختلف در وب سایت CDC موارد ابتلا به کووید را بر اساس گروه سنی با داده های اضافی در مورد درصد جمعیت ایالات متحده که در هر محدوده سنی است نمودار می کند.

این بهتره. ما زمینه بیشتری داریم. می بینیم که گروه های سنی 18-29، 30-39، 40-49 همه درصد موارد بیشتری نسبت به درصد گروه سنی در جمعیت دارند. هنوز چند گروه سنی ناهموار وجود دارد. چرا 16-17 سال یک گروه سنی جداگانه است؟ با این حال، این تمام ماجرا نیست، اما کارشناسان ستون‌هایی نوشته‌اند، پیش‌بینی‌ها و دستوراتی در مورد کمتر از این نوشته‌اند. بدیهی است که با کووید، علاوه بر سن، متغیرهای زیادی وجود دارد که بر شمارش موارد مثبت تأثیر می‌گذارد: وضعیت واکسیناسیون، در دسترس بودن آزمایش‌ها، تعداد دفعات آزمایش، بیماری‌های همراه و بسیاری موارد دیگر. تعداد موارد به خودی خود تصویری ناقص ارائه می دهد. بیشتر کارشناسان همچنین به تعداد مرگ‌ها، یا درصد مرگ و میر در هر 100,000 نفر جمعیت، یا موارد مرگ‌ومیر برای بررسی چگونگی تأثیر کووید بر هر گروه سنی نگاه می‌کنند.

نشان دادن همبستگی های نامرتبط

بدیهی است که یک وجود دارد ارتباط قوی بین هزینه های ایالات متحده برای علم، فضا و فناوری و تعداد خودکشی ها از طریق حلق آویز کردن، خفه کردن و خفگی. همبستگی 99.79٪ است، تقریباً یک تطابق کامل است.

با این حال، چه کسی این موضوع را مطرح می کند که اینها به نوعی به هم مرتبط هستند یا یکی باعث دیگری می شود؟ نمونه های کمتر افراطی دیگری نیز وجود دارد، اما نه کمتر جعلی. همبستگی قوی مشابهی بین حروف در برنده کلمه Scripps National Spelling Bee و تعداد افرادی که توسط عنکبوت های سمی کشته شده اند وجود دارد. اتفاقی؟ تو تصمیم بگیر.

راه دیگری برای ترسیم این داده ها که ممکن است کمتر گمراه کننده باشد، گنجاندن صفر در هر دو محور Y است.

نمایش داده ها به صورت نادرست

از جانب نحوه نمایش بد داده هاایالت جورجیا ایالات متحده 5 کشور برتر با بیشترین تعداد موارد تایید شده کووید-19 را معرفی کرد.

درست به نظر می رسد، درست است؟ به وضوح روند کاهشی موارد تایید شده COVID-19 وجود دارد. آیا می توانید محور X را بخوانید؟ محور X نشان دهنده زمان است. به طور معمول، تاریخ ها از چپ به راست افزایش می یابد. در اینجا، ما سفر کمی در زمان را در محور X می بینیم:

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

صبر کن؟ چی؟ محور X به ترتیب زمانی مرتب نشده است. بنابراین، هر چقدر هم که این روند خوب به نظر برسد، نمی‌توانیم نتیجه‌گیری کنیم. اگر خرماها سفارش داده شده باشند، میله‌های تعداد کیس‌ها بیشتر از هر نوع روندی الگوی دندانه‌ای را نشان می‌دهند.

راه حل آسان در اینجا مرتب کردن تاریخ ها به روش تقویم است.

نمایش داده ها به صورت غیر متعارف

ما همه مشغولیم مغز ما به ما یاد داده است که بر اساس فرضیاتی که در دنیای ما سازگار بوده است، سریع قضاوت کنیم. به عنوان مثال، هر نموداری که تا به حال دیده‌ام، محورهای x و y را در صفر یا کمترین مقدار نشان می‌دهد. با نگاهی کوتاه به این نمودار، چه نتیجه‌گیری می‌توانید در مورد تأثیر فلوریدا بگیرید «قانون اصلی خود را حفظ کنید.”؟ من شرمنده اعتراف می کنم، اما این نمودار در ابتدا من را فریب داد. چشم شما به راحتی به سمت متن و فلش در وسط گرافیک کشیده می شود. پایین در این نمودار بالا است. ممکن است دروغ نباشد - همه داده ها در آنجا هستند. اما، باید فکر کنم که هدفش فریب دادن است. اگر هنوز آن را ندیده اید، صفر در محور y در بالا است. بنابراین، با کاهش روند داده ها، این به معنای مرگ و میر بیشتر است. این نمودار تعداد قتل با استفاده از سلاح گرم را نشان می دهد افزایش پس از سال 2005، با روند ادامه دار نشان داده شده است پایین.

نمایش داده ها بیش از حد ساده شده است

زمانی که تحلیلگران از پارادوکس سیمپسون استفاده می کنند، یک نمونه از ساده سازی بیش از حد داده ها را می توان مشاهده کرد. این پدیده‌ای است که زمانی رخ می‌دهد که داده‌های جمع‌آوری شده نتیجه‌گیری متفاوتی نسبت به زمانی که به زیر مجموعه‌ها تفکیک می‌شوند نشان می‌دهند. وقتی به درصدهای کل سطح بالا نگاه می کنیم، به راحتی می توان به این دام افتاد. یکی از واضح ترین تصاویر پارادوکس سیمپسون در محل کار مربوط به میانگین ضربه زدن.

در اینجا می بینیم که درک جتر در فصل های 1995 و 1996 میانگین ضربات کلی بالاتری نسبت به دیوید جاستیس دارد. تناقض زمانی به وجود می‌آید که متوجه می‌شویم جاستیس در هر دو سال از جتر برتری داشت. اگر با دقت نگاه کنید، زمانی که متوجه می‌شوید که جتر تقریباً 4 برابر بیشتر خفاش‌ها (مخرج) در سال 1996 داشته است، در سال 007 میانگین کمتری 1996/10 داشته است. 003 میانگین بالاتر در سال 1995.

ارائه ساده به نظر می رسد، اما پارادوکس سیمپسون، آگاهانه یا ناخواسته، به نتیجه گیری های نادرستی منجر شده است. اخیراً نمونه هایی از پارادوکس سیمپسون در اخبار و رسانه های اجتماعی مربوط به واکسن ها و مرگ و میر ناشی از کووید وجود داشته است. یکی نمودار نمودار خطی را نشان می دهد که میزان مرگ و میر بین واکسینه شده و واکسینه نشده را برای افراد 10 تا 59 ساله مقایسه می کند. نمودار نشان می دهد که افراد واکسینه نشده به طور مداوم میزان مرگ و میر کمتری دارند. اینجا چه خبره؟

موضوع مشابه چیزی است که در مورد میانگین های ضربتی می بینیم. مخرج در این مورد تعداد افراد در هر گروه سنی است. نمودار گروه هایی را که نتایج متفاوتی دارند ترکیب می کند. اگر به گروه سنی 50 تا 59 سال به طور جداگانه نگاه کنیم، می بینیم که واکسینه شده بهتر است. به همین ترتیب، اگر به 10-49 نگاه کنیم، می بینیم که واکسینه شده بهتر است. به طور متناقض، وقتی به مجموعه ترکیبی نگاه می کنیم، به نظر می رسد که واکسینه نشده نتیجه بدتری دارد. به این ترتیب، می‌توانید با استفاده از داده‌ها، استدلال‌های متضاد را مطرح کنید.

داده ها مغرضانه است

همیشه نمی توان به داده ها اعتماد کرد. حتی در جامعه علمی، بیش از یک سوم از محققان مورد نظر اعتراف کردند «روش‌های تحقیقی مشکوک». دیگر کارآگاه تقلب تحقیقاتی می‌گوید: «به احتمال بسیار زیاد تقلب در داده‌ها - جداول، نمودارهای خطی، داده‌های ترتیب‌بندی [- بیشتر از آنچه در واقع کشف می‌کنیم وجود دارد. هر کسی که پشت میز آشپزخانه خود می نشیند می تواند تعدادی اعداد را در یک صفحه گسترده قرار دهد و یک نمودار خطی ایجاد کند که قانع کننده به نظر برسد.

این اول مثال به نظر می رسد کسی این کار را کرده است من نمی گویم این تقلب است، اما به عنوان یک نظرسنجی، هیچ داده ای تولید نمی کند که به یک تصمیم آگاهانه کمک کند. به نظر می رسد در این نظرسنجی از پاسخ دهندگان در مورد نظر آنها در مورد قهوه پمپ بنزین، یا رویدادهای جاری مرتبط دیگر سؤال شده است.

عالی
بزرگ
خیلی خوب

من پست توییتر را برش دادم تا ارجاع به طرف مقصر را حذف کنم، اما این نمودار کامل واقعی نتایج نهایی نظرسنجی است. نظرسنجی هایی مانند این غیر معمول نیست. بدیهی است که هر نموداری که از داده های حاصل از پاسخ ها ایجاد شود، قهوه مورد نظر را نباید از دست داد.

مشکل این است که اگر این نظرسنجی به شما داده شده بود و پاسخی متناسب با تفکر خود پیدا نمی کردید، از نظرسنجی صرف نظر می کردید. این ممکن است یک مثال افراطی از چگونگی ایجاد داده های غیرقابل اعتماد باشد. با این حال، طراحی ضعیف نظرسنجی می‌تواند منجر به پاسخ‌های کمتری شود و کسانی که پاسخ می‌دهند تنها یک نظر دارند، این فقط یک درجه است. داده ها مغرضانه است.

این مثال دوم از سوگیری داده ها از فایل های "بدترین نمودارهای گمراه کننده COVID 19"

باز هم، این ظریف است و کاملاً واضح نیست. نمودار میله ای کاهش یکنواخت - تقریباً بیش از حد نرم - درصد موارد مثبت COVID-19 را در طول زمان برای شهرستانی در فلوریدا نشان می دهد. شما به راحتی می توانید نتیجه بگیرید که موارد در حال کاهش است. این عالی است، تجسم به دقت داده ها را نشان می دهد. مشکل در داده هاست. بنابراین، این یک سوگیری موذیانه تر است زیرا شما نمی توانید آن را ببینید. آن را در داده ها پخته شده است. سوالاتی که باید بپرسید شامل این است که چه کسی در حال آزمایش است؟ به عبارت دیگر، مخرج چیست یا جمعیتی که درصدی از آن را بررسی می کنیم. فرض بر این است که کل جامعه یا حداقل یک نمونه نماینده است.

اما در این مدت در این شهرستان فقط برای تعداد محدودی آزمایش داده شد. آنها باید علائمی شبیه کووید داشته باشند یا اخیراً به کشوری سفر کرده بودند که در لیست نقاط داغ قرار دارد. علاوه بر این، نتایج گیج کننده این واقعیت است که هر آزمایش مثبت شمارش شد و هر آزمایش منفی شمارش شد. به طور معمول، زمانی که آزمایش فردی مثبت می‌شد، پس از پایان یافتن ویروس، مجدداً آزمایش می‌کرد و آزمایشش منفی بود. بنابراین، به یک معنا، برای هر مورد مثبت، یک مورد آزمایش منفی وجود دارد که آن را لغو می کند. اکثریت قریب به اتفاق تست ها منفی بوده و تست های منفی هر فرد شمارش شد. می توانید ببینید که چگونه داده ها مغرضانه هستند و برای تصمیم گیری مفید نیستند.

ورودی و آموزش هوش مصنوعی مغرضانه است

حداقل دو راه وجود دارد که هوش مصنوعی می‌تواند منجر به نتایج مغرضانه شود: شروع با داده‌های بایاس یا استفاده از الگوریتم‌های بایاس برای پردازش داده‌های معتبر.

ورودی مغرضانه

بسیاری از ما این تصور را داریم که می توان به هوش مصنوعی برای خرد کردن اعداد، اعمال الگوریتم های آن و تجزیه و تحلیل قابل اعتماد داده ها اعتماد کرد. هوش مصنوعی فقط می تواند به همان اندازه که آموزش داده شده است هوشمند باشد. اگر داده هایی که بر روی آن آموزش داده شده ناقص باشد، به نتایج یا نتیجه گیری ها نیز نمی توان اعتماد کرد. مشابه مورد بالا در مورد سوگیری نظرسنجی، روش‌هایی وجود دارد که داده‌ها می‌توانند از طریق آن‌ها به دست آیند جانبدارانه در یادگیری ماشین:.

سوگیری نمونه - مجموعه داده آموزشی نماینده کل جمعیت نیست.
سوگیری حذف - گاهی اوقات آنچه که به نظر می رسد پرت هستند، در واقع معتبر هستند، یا جایی که ما خط را بر روی آنچه باید وارد کنیم (کدهای پستی، تاریخ، و غیره) ترسیم می کنیم.
بایاس اندازه گیری - قرارداد این است که همیشه از مرکز و پایین منیسک اندازه گیری شود، به عنوان مثال، هنگام اندازه گیری مایعات در فلاسک های حجمی یا لوله های آزمایش (به جز جیوه).
سوگیری را به یاد بیاورید - زمانی که تحقیق به حافظه شرکت کنندگان بستگی دارد.
تعصب مشاهده‌گر – دانشمندان، مانند همه انسان‌ها، تمایل بیشتری به دیدن آنچه انتظار دارند، دارند.
سوگیری های جنسیتی و نژادپرستانه - جنسیت یا نژاد ممکن است بیش از حد یا کمتر از آن نشان داده شود.
سوگیری انجمن - داده ها کلیشه ها را تقویت می کنند

برای اینکه هوش مصنوعی بتواند نتایج قابل اعتمادی را ارائه دهد، داده های آموزشی آن باید دنیای واقعی را نشان دهد. همانطور که در مقاله قبلی وبلاگ صحبت کردیم، آماده سازی داده ها مانند هر پروژه داده دیگری حیاتی است. داده‌های غیرقابل اعتماد می‌توانند درس اشتباهی را به سیستم‌های یادگیری ماشین بیاموزند و نتیجه‌گیری اشتباهی را به همراه داشته باشند. گفت: "همه داده ها مغرضانه هستند. این پارانویا نیست. این یک واقعیت است.» – دکتر سانجیو ام نارایان، دانشکده پزشکی دانشگاه استنفورد.

استفاده از داده های مغرضانه برای آموزش منجر به تعدادی از شکست های قابل توجه هوش مصنوعی شده است. (مثال ها اینجا کلیک نمایید و اینجا کلیک نمایید، پژوهش اینجا کلیک نمایید..)

الگوریتم های مغرضانه

الگوریتم مجموعه ای از قوانین است که ورودی را می پذیرد و خروجی ایجاد می کند تا به یک مشکل تجاری پاسخ دهد. آنها اغلب درخت های تصمیم به خوبی تعریف شده هستند. الگوریتم ها شبیه جعبه سیاه هستند. هیچ کس مطمئن نیست که آنها چگونه کار می کنند، حتی آنها شرکت هایی که از آنها استفاده می کنند. اوه، و آنها اغلب اختصاصی هستند. ماهیت مرموز و پیچیده آنها یکی از دلایلی است که الگوریتم های بایاس را تا این حد موذیانه نشان می دهد. .

الگوریتم های هوش مصنوعی در پزشکی، منابع انسانی یا امور مالی را در نظر بگیرید که نژاد را در نظر می گیرند. اگر نژاد یک عامل باشد، الگوریتم نمی تواند از نظر نژادی کور باشد. این نظری نیست. مشکلاتی از این دست با استفاده از هوش مصنوعی در دنیای واقعی کشف شده اند استخدام, سواری سهم, درخواست وام، و پیوند کلیه.

نکته اصلی این است که اگر داده ها یا الگوریتم های شما بد باشند، بدتر از بی فایده باشند، ممکن است خطرناک باشند. چیزی به عنوان "ممیزی الگوریتمی" هدف کمک به سازمان‌ها برای شناسایی خطرات بالقوه مرتبط با الگوریتم است که به انصاف، تعصب و تبعیض مربوط می‌شود. در جای دیگر، فیس بوک از هوش مصنوعی برای مبارزه با سوگیری در هوش مصنوعی استفاده می کند.

مردم مغرضانه هستند

ما افرادی را در دو طرف معادله داریم. مردم در حال آماده سازی تحلیل هستند و مردم در حال دریافت اطلاعات هستند. محقق هم هست و خواننده هم هست. در هر ارتباطی ممکن است مشکلاتی در انتقال یا دریافت وجود داشته باشد.

برای مثال آب و هوا را در نظر بگیرید. "احتمال باران" به چه معناست؟ اول اینکه هواشناسان وقتی می گویند احتمال باران وجود دارد، منظورشان چیست؟ به گفته دولت آمریکا خدمات ملی آب و هوااحتمال بارش باران، یا چیزی که به آن Probability of Precipitation (PoP) می گویند، یکی از عناصر کمتر درک شده در پیش بینی آب و هوا است. این یک تعریف استاندارد دارد: "احتمال بارش به سادگی یک احتمال آماری 0.01 اینچ [sic] از [sic] بیشتر بارندگی در یک منطقه معین در منطقه پیش بینی شده در دوره زمانی مشخص شده است." "منطقه داده شده" منطقه پیش بینی یا b استroadمنطقه بازیگران این بدان معنی است که احتمال رسمی بارندگی به اطمینان از بارندگی در جایی در منطقه و درصد منطقه ای که خیس می شود بستگی دارد. به عبارت دیگر، اگر هواشناس مطمئن باشد که در منطقه پیش‌بینی شده باران می‌بارد (اطمینان = 100%)، PoP نشان دهنده بخشی از منطقه است که باران دریافت می‌کند.

خیابان پاریس؛ روز بارانیگوستاو کایلبوت (1848-1894) حوزه عمومی موسسه هنر شیکاگو

احتمال باران هم به اطمینان و هم به منطقه بستگی دارد. من این را نمیدانستم. من گمان می کنم که دیگران نیز این را نمی دانند. حدود 75 درصد از جمعیت به درستی نمی‌دانند که PoP چگونه محاسبه می‌شود، یا اینکه چه چیزی را نشان می‌دهد. بنابراین، آیا ما فریب می خوریم، یا این یک مشکل ادراک است. بیایید آن را درک بارش بنامیم. آیا ما پیش بینی هوا را مقصر می دانیم؟ اگر منصف باشیم، برخی وجود دارد گیجی در میان پیش بینی های هواشناسی نیز در یک بررسی43 درصد از هواشناسان مورد بررسی گفتند که در تعریف PoP سازگاری بسیار کمی وجود دارد.

خود آنالیز مغرضانه است

از بین پنج عامل تأثیرگذار، خود تحلیل ممکن است شگفت‌انگیزترین باشد. در تحقیقات علمی که منجر به انتشار مقاله بررسی شده می شود، معمولاً یک نظریه فرضیه می شود، روش هایی برای آزمون فرضیه تعریف می شود، داده ها جمع آوری می شوند و سپس داده ها تجزیه و تحلیل می شوند. نوع تجزیه و تحلیل انجام شده و نحوه انجام آن از نظر تأثیرگذاری بر نتیجه گیری نادیده گرفته می شود. در یک مقاله در اوایل سال جاری (ژانویه 2022)، در مجله بین المللی سرطان، نویسندگان ارزیابی کردند که آیا نتایج حاصل از کارآزمایی های تصادفی کنترل شده و مطالعات مشاهده ای گذشته نگر یا خیر. یافته های آنها به این نتیجه رسیدند که

با تغییر انتخاب‌های تحلیلی در تحقیق اثربخشی مقایسه‌ای، ما نتایج متضادی ایجاد کردیم. نتایج ما نشان می‌دهد که برخی از مطالعات مشاهده‌ای گذشته‌نگر ممکن است دریافتند که یک درمان نتایج را برای بیماران بهبود می‌بخشد، در حالی که یک مطالعه مشابه دیگر ممکن است به سادگی بر اساس انتخاب‌های تحلیلی این کار را انجام ندهد.

در گذشته، هنگام مطالعه یک مقاله مجله علمی، اگر شما هم مانند من هستید، ممکن است فکر کرده باشید که نتایج یا نتیجه گیری ها همه در مورد داده ها هستند. حال، به نظر می رسد که نتایج، یا تایید یا رد فرضیه اولیه نیز ممکن است به روش تحلیل بستگی داشته باشد.

دیگر مطالعه نتایج مشابهی پیدا کرد. مقاله، بسیاری از تحلیلگران، یک مجموعه داده: شفاف سازی چگونگی تأثیر تغییرات در انتخاب های تحلیلی بر نتایج، توضیح می دهد که چگونه آنها مجموعه داده های یکسانی را برای تجزیه و تحلیل به 29 تیم مختلف دادند. تجزیه و تحلیل داده ها اغلب به عنوان یک فرآیند دقیق و کاملاً تعریف شده در نظر گرفته می شود که به یک نتیجه واحد منجر می شود.

علیرغم اظهارات روش شناسان، به راحتی می توان این واقعیت را نادیده گرفت که نتایج ممکن است به استراتژی تحلیلی انتخاب شده، که خود آغشته به نظریه، مفروضات و نقاط انتخاب است، بستگی داشته باشد. در بسیاری از موارد، بسیاری از رویکردهای معقول (و بسیاری غیرمنطقی) برای ارزیابی داده ها وجود دارد که بر یک سؤال تحقیق تأثیر می گذارد.

محققان تجزیه و تحلیل داده ها را جمع آوری کردند و به این نتیجه رسیدند که همه تحقیقات شامل تصمیمات ذهنی است - از جمله اینکه کدام نوع تجزیه و تحلیل استفاده شود - که می تواند بر نتیجه نهایی مطالعه تأثیر بگذارد.

توصیه دیگری پژوهشگر کسانی که مطالعه فوق را تجزیه و تحلیل کردند باید در هنگام استفاده از یک مقاله در تصمیم گیری یا نتیجه گیری محتاط باشند.

پرداختن به تعصب در تجزیه و تحلیل

این صرفاً به معنای یک داستان هشدار دهنده است. دانش می تواند از ما در برابر کلاهبرداری محافظت کند. هر چه یک اسکنر از روش‌های ممکن برای فریب دادن ما استفاده کند، احتمال اینکه مثلاً در جهت اشتباه جیب‌برها یا صحبت‌های آرام نمایشنامه‌های پونزی درگیر شویم، کمتر می‌شود. بنابراین با درک و شناخت سوگیری های بالقوه است که بر تجزیه و تحلیل ما تأثیر می گذارد. اگر از تأثیرات احتمالی آگاه باشیم، شاید بتوانیم داستان را بهتر ارائه کنیم و در نهایت تصمیمات بهتری بگیریم.

BI/Analytics دسته بندی نشده

چرا مایکروسافت اکسل ابزار تجزیه و تحلیل شماره 1 است؟

چرا اکسل ابزار تحلیل شماره 1 است؟

این ارزان و آسان است. نرم افزار صفحه گسترده مایکروسافت اکسل احتمالاً از قبل بر روی رایانه کاربر تجاری نصب شده است. و بسیاری از کاربران امروزه از دوران دبیرستان یا حتی قبل از آن در معرض نرم افزار مایکروسافت آفیس قرار گرفته اند. این پاسخ زانو تند به ...

ادامه مطلب

جان بویر | آوریل 18، 2024 | 0

BI/Analytics دسته بندی نشده

بینش خود را شلوغ کنید: راهنمای تجزیه و تحلیل بهار تمیز کردن

بینش خود را شلوغ کنید راهنمای تجزیه و تحلیل تمیز کردن بهاره سال جدید با یک انفجار آغاز می شود. گزارش‌های پایان سال ایجاد و بررسی می‌شوند، و سپس همه در یک برنامه کاری ثابت قرار می‌گیرند. با طولانی شدن روزها و شکوفه دادن درختان و گل ها،...

ادامه مطلب

شری ویگر | آوریل 10، 2024 | 0

BI/Analytics دسته بندی نشده

پیتزای سبک نیویورک در مقابل شیکاگو: مناظره ای خوشمزه

هنگام ارضای هوس ما، چیزهای کمی می توانند با لذت یک تکه داغ پیتزا رقابت کنند. بحث بین پیتزا به سبک نیویورک و شیکاگو برای دهه ها بحث های پرشور را برانگیخته است. هر سبکی ویژگی های منحصر به فرد و طرفداران فداکار خود را دارد.

ادامه مطلب

شری ویگر | مار 12، 2024 | 0

BI/Analytics Cognos Analytics

کاربران شما Query Studio خود را می خواهند

با انتشار IBM Cognos Analytics 12، لغو مدت‌ها اعلام شده Query Studio و Analysis Studio سرانجام با نسخه‌ای از Cognos Analytics منهای آن استودیوها ارائه شد. در حالی که این نباید برای بسیاری از افرادی که درگیر این موضوع هستند تعجب آور باشد...

ادامه مطلب

مایک نوریس | فوریه 29، 2024 | 0

BI/Analytics دسته بندی نشده

آیا اثر تیلور سویفت واقعی است؟

برخی از منتقدان پیشنهاد می‌کنند که او قیمت‌های بلیت Super Bowl را بالا می‌برد. انتظار می‌رود Super Bowl این آخر هفته یکی از 3 رویداد برتر تاریخ تلویزیون باشد. احتمالاً بیشتر از رکوردهای سال گذشته و شاید حتی بیشتر از ماه سال 1969 ...

ادامه مطلب

جان بویر | فوریه 7، 2024 | 0

BI/Analytics

کاتالوگ های تجزیه و تحلیل - یک ستاره در حال ظهور در اکوسیستم تجزیه و تحلیل

مقدمه به عنوان یک مدیر ارشد فناوری (CTO)، من همیشه به دنبال فناوری های نوظهوری هستم که رویکرد ما به تحلیل را تغییر می دهد. یکی از این فناوری‌ها که در چند سال گذشته توجه من را به خود جلب کرده و نویدبخش است، Analytics است...

ادامه مطلب

لنس هانکینز | اکتبر 19، 2023 | 0

بیشتر

دروغ تحلیلی

دروغ تحلیلی

ارائه مغرضانه است

نمایش یک مجموعه داده محدود

نشان دادن همبستگی های نامرتبط

نمایش داده ها به صورت نادرست

نمایش داده ها به صورت غیر متعارف

نمایش داده ها بیش از حد ساده شده است

داده ها مغرضانه است

ورودی و آموزش هوش مصنوعی مغرضانه است

الگوریتم های مغرضانه

مردم مغرضانه هستند

خود آنالیز مغرضانه است

پرداختن به تعصب در تجزیه و تحلیل

پست های مربوط به وبلاگ

چرا اکسل ابزار تحلیل شماره 1 است؟

بینش خود را شلوغ کنید: راهنمای تجزیه و تحلیل بهار تمیز کردن

پیتزای سبک نیویورک در مقابل شیکاگو: مناظره ای خوشمزه

کاربران شما Query Studio خود را می خواهند

آیا اثر تیلور سویفت واقعی است؟

کاتالوگ های تجزیه و تحلیل - یک ستاره در حال ظهور در اکوسیستم تجزیه و تحلیل

نسخه ی نمایشی دریافت کنید

نرم افزار رایگان

مزایا

محصولات

درباره‌ ما

منابع

تماس با ما