Аналитична лъжа

by Август 31, 2022BI/Аналитика0 коментари

Аналитична лъжа

Пристрастието на анализа

 

Марк Твен спорно е казал нещо като: „Има три вида лъжи: лъжи, проклети лъжи и анализ

Приемаме за даденост, че анализите ни дават полезна и приложима информация. Това, което често не осъзнаваме, е как нашите собствени пристрастия и тези на другите влияят на отговорите, които ни дават дори най-сложният софтуер и системи. Понякога може да бъдем манипулирани нечестно, но по-често това може да са фини и несъзнателни пристрастия, които се прокрадват в нашите анализи. Мотивацията зад пристрастните анализи е многостранна. Понякога безпристрастните резултати, които очакваме от науката, са повлияни от 1) фини избори в начина, по който се представят данните, 2) непоследователни или непредставителни данни, 3) как се обучават системите за ИИ, 4) невежеството, некомпетентността на изследователите или други, които се опитват да разкаже историята, 5) самият анализ.    

Представянето е пристрастно

Някои от лъжите се забелязват по-лесно от други. Когато знаете какво да търсите, можете по-лесно да откриете потенциала подвеждащи графики и диаграми. 

Има поне пет начина за подвеждащо показване на данни: 1) Показване на ограничен набор от данни, 2). Показване на несвързани корелации, 3) Показване на данни неточно, 4) Показване на данни нетрадиционно, или 5). Показване на твърде опростени данни.

Показване на ограничен набор от данни

Ограничаването на данните или ръчното избиране на неслучайна част от данните често може да разкаже история, която не е в съответствие с общата картина. Лошо вземане на проби или избиране на череши е, когато анализаторът използва непредставителна извадка, за да представи по-голяма група. 

През март 2020, Министерството на общественото здраве на Джорджия публикува тази диаграма като част от ежедневния си доклад за състоянието. Всъщност повдига повече въпроси, отколкото дава отговори.  

Едно от нещата, които липсват, е контекстът. Например, би било полезно да знаете какъв е процентът от населението за всяка възрастова група. Друг проблем с простата кръгова диаграма са неравномерните възрастови групи. 0-17 има 18 години, 18-59 има 42, 60+ е с отворен край, но има около 40 години. Изводът, като се има предвид само тази диаграма, е, че по-голямата част от случаите са във възрастовата група 18-59 години. Възрастовата група над 60 години изглежда е по-малко засегната от случаите на COVID. Но това не е цялата история.

За сравнение, този различен набор от данни на Уеб сайт на CDC диаграми на случаите на COVID по възрастова група с допълнителни данни за процента от населението на САЩ, който е във всяка възрастова група.  

Това е по-добре. Имаме повече контекст. Можем да видим, че всички възрастови групи 18-29, 30-39, 40-49 имат по-висок процент случаи от процента на възрастовата група в населението. Все още има някои неравномерни възрастови групи. Защо 16-17 е отделна възрастова група? Все пак това не е цялата история, но експерти са написали колони, направили са прогнози и са дали мандати за по-малко от това. Очевидно при COVID има много променливи в допълнение към възрастта, които влияят върху отчитането като положителен случай: ваксинационен статус, наличие на тестове, брой тествани пъти, съпътстващи заболявания и много други. Самият брой случаи дава непълна картина. Повечето експерти също разглеждат броя на смъртните случаи или процентите на смъртните случаи на 100,000 XNUMX души от населението или смъртните случаи, за да видят как COVID засяга всяка възрастова група.

Показване на несвързани корелации

Очевидно има a силна корелация между разходите на САЩ за наука, космос и технологии и броя на самоубийствата чрез обесване, удушаване и задушаване. Корелацията е 99.79%, почти перфектно съвпадение.  

Кой обаче би предположил, че те са свързани по някакъв начин или че едното причинява другото? Има и други по-малко крайни примери, но не по-малко фалшиви. Има подобна силна връзка между буквите в Winning Word of Scripps National Spelling Bee и броя на хората, убити от отровни паяци. Съвпадение? Ти решаваш.

Друг начин за диаграма на тези данни, който може да е по-малко подвеждащ, е да включите нула и по двете Y-оси.

Показване на неточни данни

от Как да показвате данни лошо, американският щат Джорджия представи Топ 5 на окръга с най-голям брой потвърдени случаи на COVID-19.

Изглежда законно, нали? Явно има тенденция към намаляване на потвърдените случаи на COVID-19. Можете ли да разчетете оста X? Оста Х представлява времето. Обикновено датите се увеличават отляво надясно. Тук виждаме малко пътуване във времето по оста X: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

Изчакайте? Какво? Оста X не е сортирана хронологично. Така че, колкото и хубава да изглежда тенденцията, не можем да правим никакви заключения. Ако датите са подредени, лентите за броя на случаите показват повече модел на трион, отколкото каквато и да е тенденция.

Лесното решение тук е да сортирате датите по начина, по който го прави календарът.

Показвайте данните нетрадиционно

Всички сме заети. Мозъците ни са ни научили да правим бързи преценки въз основа на предположения, които са последователни в нашия свят. Например, всяка графика, която някога съм виждал, показва, че осите x и y се срещат при нулеви или най-ниски стойности. Разглеждайки накратко тази диаграма, какви заключения можете да направите за ефекта на Флорида „Спазвайте своя закон.”? Срам ме е да го призная, но тази графика ме заблуди в началото. Окото ви е удобно привлечено от текста и стрелката в средата на графиката. Надолу е нагоре в тази графика. Може да не е лъжа – данните са наред. Но трябва да мисля, че има за цел да заблуди. Ако все още не сте го виждали, нулата на оста y е в горната част. Така че, тъй като данните намаляват, това означава повече смъртни случаи. Тази диаграма показва, че броят на убийствата с огнестрелно оръжие увеличава след 2005 г., което се вижда от тенденцията надолу.

Показване на данните прекалено опростени

Един пример за прекалено опростяване на данните може да се види, когато анализаторите се възползват от парадокса на Симпсън. Това е феномен, който възниква, когато изглежда, че обобщените данни демонстрират различно заключение от това, когато са разделени на подгрупи. В този капан е лесно да попаднете, когато разглеждате агрегирани проценти на високо ниво. Една от най-ясните илюстрации на парадокса на Симпсън на работа е свързана с вата средни.  

Тук виждаме, че Дерек Джетър има по-висока обща средна стойност на вата от Дейвид Джъстис за сезони 1995 и 1996. Парадоксът идва, когато осъзнаем, че Джъстис надмина Джетър в средно ниво на вата и през двете години. Ако се вгледате внимателно, има смисъл, когато разберете, че Jeter е имал приблизително 4 пъти повече прилепи (знаменателят) през 1996 г. при .007 по-ниска средна стойност през 1996 г. Докато Джъстис е имал приблизително 10 пъти повече прилепи само при . 003 по-висока средна през 1995 г.

Презентацията изглежда ясна, но Парадоксът на Симпсън, съзнателно или несъзнателно, доведе до неправилни заключения. Наскоро в новините и социалните медии имаше примери за парадокса на Симпсън, свързани с ваксините и смъртността от COVID. един диаграма показва линейна графика, сравняваща смъртността между ваксинирани и неваксинирани за хора на възраст 10-59 години. Графиката показва, че неваксинираните постоянно имат по-ниска смъртност. Какво става тук?  

Проблемът е подобен на този, който виждаме при средните стойности на вата. Знаменателят в този случай е броят на индивидите във всяка възрастова група. Графиката комбинира групи, които имат различни резултати. Ако разгледаме по-възрастната възрастова група 50-59 поотделно, виждаме, че ваксинираните се справят по-добре. По същия начин, ако погледнем 10-49, виждаме също, че ваксинираните се справят по-добре. Парадоксално, когато се разглежда комбинираната група, неваксинираните изглежда имат по-лош резултат. По този начин можете да аргументирате противоположни аргументи, като използвате данните.

Данните са пристрастни

На данните не винаги може да се вярва. Дори в научната общност над една трета от анкетираните изследователи признават „съмнителни изследователски практики“.  Друг детектив за изследователски измами казва: „Много вероятно има много повече измами с данни – таблици, линейни графики, данни за последователност [– отколкото всъщност откриваме]. Всеки, който седи на кухненската си маса, може да постави някои числа в електронна таблица и да направи линейна графика, която изглежда убедително.

Това първо пример изглежда някой е направил точно това. Не казвам, че това е измама, но като проучване, то просто не генерира данни, които да допринесат за информирано решение. Изглежда, че анкетата е попитала респондентите за мнението им за кафето на бензиностанцията или за друго подходящо актуално събитие. 

  1. превъзходен 
  2. Страхотен
  3. Много добър 

Изрязах публикацията в Twitter, за да премахна препратките към виновната страна, но това е всъщност цялата диаграма с крайните резултати от проучването. Проучвания като това не са рядкост. Очевидно всяка диаграма, създадена от данните, произтичащи от отговорите, ще покаже, че въпросното кафе не е за изпускане.  

Проблемът е, че ако ви е била дадена тази анкета и не сте намерили отговор, който отговаря на вашето мислене, бихте пропуснали анкетата. Това може да е краен пример за това как могат да бъдат създадени ненадеждни данни. Лошият дизайн на проучването обаче може да доведе до по-малко отговори и тези, които отговарят, имат само едно мнение, това е просто въпрос на степен. Данните са пристрастни.

Този втори пример за отклонение на данните е от файловете на „Най-лошите подвеждащи графики на COVID 19

Отново, това е фино и не е напълно очевидно. Стълбовидната графика показва плавен – почти твърде плавен – спад в процента на положителни случаи на COVID-19 с течение на времето за окръг във Флорида. Лесно можете да направите извода, че случаите намаляват. Това е страхотно, визуализацията точно представя данните. Проблемът е в данните. Така че това е по-коварно пристрастие, защото не можете да го видите. Той е записан в данните. Въпросите, които трябва да зададете, включват кой се тества? С други думи, какъв е знаменателят или населението, което разглеждаме като процент. Предполага се, че това е цялата популация или поне представителна извадка.

Въпреки това през този период в този окръг тестовете са правени само на ограничен брой хора. Те трябваше да имат симптоми, подобни на COVID, или наскоро да са пътували до държава от списъка с горещи точки. Допълнително объркващ резултатите е фактът, че всеки положителен тест беше отчетен и всеки отрицателен тест беше отчетен. Обикновено, когато дадено лице даде положителен тест, той ще тества отново, когато вирусът се развие, и ще даде отрицателен резултат. Така че, в известен смисъл, за всеки положителен случай има отрицателен тестов случай, който го анулира. По-голямата част от тестовете са отрицателни и отрицателните тестове на всеки индивид бяха преброени. Можете да видите как данните са пристрастни и не особено полезни за вземане на решения. 

Въвеждането и обучението на AI са предубедени

Има поне два начина, по които AI може да доведе до пристрастни резултати: започване с пристрастни данни или използване на пристрастни алгоритми за обработка на валидни данни.  

Предубеден вход

Много от нас са с впечатлението, че на AI може да се има доверие, за да разбие числата, да приложи неговите алгоритми и да изплюе надежден анализ на данните. Изкуственият интелект може да бъде толкова умен, колкото е обучен. Ако данните, на които се обучава, са несъвършени, резултатите или заключенията също няма да могат да бъдат надеждни. Подобно на горния случай с пристрастност на проучването, има редица начини, по които данните могат да бъдат диагонален в машинното обучение:.  

  • Пристрастност на извадката – наборът от данни за обучението не е представителен за цялата популация.
  • Пристрастност при изключване – понякога това, което изглежда като отклонение, е действително валидно или, където теглим чертата какво да включим (пощенски кодове, дати и т.н.).
  • Отклонение при измерване – конвенцията е винаги да се измерва от центъра и дъното на менискуса, например, когато се измерват течности в мерителни колби или епруветки (с изключение на живак.)
  • Пристрастност при припомняне – когато изследването зависи от паметта на участниците.
  • Пристрастие към наблюдателя – учените, като всички хора, са по-склонни да видят това, което очакват да видят.
  • Сексистки и расистки пристрастия – полът или расата може да са прекалено или недостатъчно представени.  
  • Пристрастност на асоциацията – данните засилват стереотипите

За да може AI да дава надеждни резултати, неговите данни за обучение трябва да представят реалния свят. Както обсъдихме в предишна статия в блога, подготовката на данни е критична и като всеки друг проект за данни. Ненадеждните данни могат да научат системите за машинно обучение на грешен урок и ще доведат до грешно заключение. Това каза: „Всички данни са пристрастни. Това не е параноя. Това е факт.” – Д-р Санджив М. Нараян, Факултет по медицина на Станфордския университет.

Използването на предубедени данни за обучение доведе до редица забележителни неуспехи на AI. (Примери тук намлява тук, изследвания тук..)

Предубедени алгоритми

Алгоритъмът е набор от правила, които приемат вход и създават изход, за да отговорят на бизнес проблем. Те често са добре дефинирани дървета на решения. Алгоритмите се чувстват като черни кутии. Никой не е сигурен как работят, често, дори и фирми, които ги използват. О, и те често са патентовани. Тяхната мистериозна и сложна природа е една от причините предубедените алгоритми да са толкова коварни. . 

Помислете за AI алгоритми в медицината, човешките ресурси или финансите, които вземат под внимание расата. Ако расата е фактор, алгоритъмът не може да бъде расово сляп. Това не е теоретично. Проблеми като тези са открити в реалния свят с помощта на AI в наемане, споделено пътуване, искане за кредитS, и бъбречни трансплантации

Изводът е, че ако вашите данни или алгоритми са лоши, по-лоши от безполезни, те може да са опасни. Има такова нещо като „алгоритмичен одит.” Целта е да се помогне на организациите да идентифицират потенциалните рискове, свързани с алгоритъма, тъй като той се отнася до справедливост, пристрастия и дискриминация. другаде, Facebook използва AI за борба с пристрастията в AI.

Хората са пристрастни

Имаме хора и от двете страни на уравнението. Хората подготвят анализа и хората получават информацията. Има изследователи и има читатели. При всяка комуникация може да има проблеми с предаването или приемането.

Вземете например времето. Какво означава „възможност за дъжд“? Първо, какво имат предвид метеоролозите, когато казват, че има вероятност за дъжд? Според правителството на САЩ Националната метеорологична служба, вероятността за дъжд или това, което те наричат ​​Вероятност за валежи (PoP), е един от най-малко разбраните елементи в прогнозата за времето. Има стандартна дефиниция: „Вероятността за валежи е просто статистическа вероятност от 0.01 инча [sic] [sic] повече валежи в дадена област в дадения прогнозиран район за определения период от време.“ „Дадената област“ е прогнозираната област, или broadотлята област. Това означава, че официалната Вероятност за валежи зависи от увереността, че ще вали някъде в района и процента от площта, която ще се намокри. С други думи, ако метеорологът е уверен, че ще вали в прогнозираната зона (Доверие = 100%), тогава PoP представлява частта от зоната, която ще получи дъжд.  

ул. Париж; Дъждовен ден, Гюстав Кайбот (1848-1894) Чикагски художествен институт, обществено достояние

Вероятността за дъжд зависи както от увереността, така и от района. Аз не знаех това. Подозирам, че и други хора не знаят това. Около 75% от населението не разбира точно как се изчислява PoP или какво трябва да представлява. И така, заблуждаваме ли се или това е проблем на възприятието. Нека го наречем възприятие на валежите. Да виним ли синоптичката? За да бъда честен, има някои объркване и сред синоптиците. В един изследване, 43% от анкетираните метеоролози казаха, че има много малко последователност в дефиницията на PoP.

Самият анализ е пристрастен

От петте влияещи фактора, самият анализ може да бъде най-изненадващият. При научно изследване, което води до публикуване на прегледана статия, обикновено се излага хипотеза за теория, дефинират се методи за тестване на хипотезата, събират се данни, след което данните се анализират. Типът анализ, който се прави, и начинът, по който се прави, не се оценяват по отношение на това как влияе върху заключенията. В хартия публикувани по-рано тази година (януари 2022 г.), в International Journal of Cancer, авторите оценяват дали резултатите от рандомизирани контролирани проучвания и ретроспективни обсервационни проучвания. Техните констатации заключаваха, че

Чрез различни аналитични избори в сравнително изследване на ефективността, ние генерирахме противоположни резултати. Нашите резултати предполагат, че някои ретроспективни обсервационни проучвания могат да установят, че лечението подобрява резултатите за пациентите, докато друго подобно проучване може да установи, че не го прави, просто въз основа на аналитичен избор.

В миналото, когато сте чели статия в научно списание, ако сте като мен, може да сте си помислили, че резултатите или заключенията се отнасят изцяло до данните. Сега изглежда, че резултатите или дали първоначалната хипотеза е потвърдена или опровергана също може да зависи от метода на анализ.

Друг проучване намери подобни резултати. Статията, Много анализатори, един набор от данни: прозрачност как вариациите в аналитичните избори влияят на резултатите, описва как са дали един и същи набор от данни на 29 различни екипа за анализ. Анализът на данните често се разглежда като строг, добре дефиниран процес, който води до едно заключение.  

Въпреки възраженията на методолозите е лесно да се пренебрегне фактът, че резултатите могат да зависят от избраната аналитична стратегия, която сама по себе си е пропита с теория, предположения и точки за избор. В много случаи има много разумни (и много неразумни) подходи за оценка на данни, които имат отношение към изследователски въпрос.

Изследователите събраха анализ на данните и стигнаха до заключението, че всички изследвания включват субективни решения – включително кой тип анализ да се използва – което може да повлияе на крайния резултат от изследването.

Препоръката на др изследовател който анализира горното проучване, трябва да бъде предпазлив, когато използва един документ при вземането на решения или изготвянето на заключения.

Справяне с пристрастията в Анализ

Това просто има за цел да бъде предупредителна история. Знанието може да ни предпази от измама. Колкото по-добре сме запознати с възможните методи, които един скенер може да използва, за да ни заблуди, толкова по-малка е вероятността да бъдем заловени, да речем, от, да речем, погрешно насочване на джебчия или гладки разговори за игра на Понци. Така е и с разбирането и разпознаването на потенциални пристрастия, които засягат нашите анализи. Ако сме наясно с потенциалните влияния, може да сме в състояние да представим историята по-добре и в крайна сметка да вземем по-добри решения.  

BI/АналитикаБез категория
Как 2500-годишен метод може да подобри вашия анализ

Как 2500-годишен метод може да подобри вашия анализ

Сократовият метод, погрешно практикуван, може да доведе до „сводничество“. Юридическите и медицинските училища го преподават от години. Сократовият метод е полезен не само за лекари и адвокати. Всеки, който ръководи екип или наставлява младши персонал, трябва да притежава тази техника в...

Вижте повече

BI/АналитикаБез категория
Защо Microsoft Excel е инструмент №1 за анализ
Защо Excel е инструмент №1 за анализ?

Защо Excel е инструмент №1 за анализ?

  Това е евтино и лесно. Софтуерът за електронни таблици Microsoft Excel вероятно вече е инсталиран на компютъра на бизнес потребителя. И много потребители днес са били изложени на софтуера на Microsoft Office от гимназията или дори по-рано. Този дрезгав отговор на...

Вижте повече

BI/АналитикаБез категория
Разчистете своите прозрения: Ръководство за пролетно почистване на Google Анализ

Разчистете своите прозрения: Ръководство за пролетно почистване на Google Анализ

Разчистете вашите прозрения Ръководство за анализ Пролетно почистване Новата година започва с гръм и трясък; Докладите в края на годината се създават и разглеждат внимателно и след това всеки се установява в последователен работен график. Когато дните стават по-дълги и дърветата и цветята цъфтят,...

Вижте повече

BI/АналитикаБез категория
NY Style срещу Chicago Style Pizza: Вкусен дебат

NY Style срещу Chicago Style Pizza: Вкусен дебат

Когато задоволяваме желанията си, малко неща могат да съперничат на насладата от горещо парче пица. Дебатът между пицата в стил Ню Йорк и този в Чикаго предизвиква страстни дискусии от десетилетия. Всеки стил има свои уникални характеристики и предани фенове....

Вижте повече

BI/АналитикаАнализ на Cognos
Студио за заявки Cognos
Вашите потребители искат своето студио за заявки

Вашите потребители искат своето студио за заявки

С пускането на IBM Cognos Analytics 12, отдавна обявеното оттегляне на Query Studio и Analysis Studio най-накрая беше доставено с версия на Cognos Analytics без тези студия. Въпреки че това не трябва да е изненада за повечето хора, ангажирани с...

Вижте повече

BI/АналитикаБез категория
Реален ли е ефектът на Тейлър Суифт?

Реален ли е ефектът на Тейлър Суифт?

Някои критици предполагат, че тя повишава цените на билетите за Super Bowl Този уикенд се очаква Super Bowl да бъде едно от 3-те най-гледани събития в историята на телевизията. Вероятно повече от миналогодишните рекордни числа и може би дори повече от луната през 1969 г.

Вижте повече