Аналітична брехня

by Серпень 31, 2022BI/Аналітикакоментарі 0

Аналітична брехня

Упередженість аналізу

 

Марк Твен сказав щось на кшталт: «Є три види брехні: брехня, проклята брехня і аналітика». 

Ми вважаємо само собою зрозумілим, що аналітика дає нам корисну інформацію, яка дає змогу діяти. Ми часто не усвідомлюємо, як наші власні упередження та упередження інших впливають на відповіді, які нам дають навіть найскладніші програми та системи. Іноді нами можуть нечесно маніпулювати, але частіше в нашу аналітику можуть проникати непомітні й несвідомі упередження. Упереджена аналітика має багато мотивів. Іноді на неупереджені результати, які ми очікуємо від науки, впливають 1) тонкий вибір у тому, як подаються дані, 2) суперечливі або нерепрезентативні дані, 3) те, як навчаються системи штучного інтелекту, 4) необізнаність, некомпетентність дослідників або інших осіб, які намагаються розповісти історію, 5) сам аналіз.    

Презентація упереджена

Деякі брехні легше помітити, ніж інші. Коли ви знаєте, що шукати, вам легше виявити потенціал оманливі графіки та діаграми. 

Є щонайменше п'ять способів оманливого відображення даних: 1) Показати обмежений набір даних, 2). Показати непов’язані кореляції, 3) Показати дані неточно, 4) Показати дані нетрадиційно, або 5). Показати занадто спрощені дані.

Показати обмежений набір даних

Обмеження даних або ручний вибір невипадкової частини даних часто може розповісти історію, яка не відповідає загальній картині. Погана вибірка, або вибір вишні, — це коли аналітик використовує нерепрезентативну вибірку для представлення більшої групи. 

У березні 2020, Департамент охорони здоров'я Грузії опублікував цей графік як частину свого щоденного звіту про стан справ. Насправді це викликає більше питань, ніж дає відповідей.  

Однією з речей, якої не вистачає, є контекст. Наприклад, було б корисно знати, який відсоток населення становить кожна вікова група. Ще одна проблема, пов’язана з простою на вигляд круговою діаграмою, – це нерівномірні вікові групи. 0-17 має 18 років, 18-59 має 42, 60+ є відкритим, але має близько 40 років. Висновок, враховуючи лише цю діаграму, полягає в тому, що більшість випадків припадає на вікову групу 18-59 років. Схоже, що вікова група 60+ менше постраждала від випадків COVID. Але це ще не вся історія.

Для порівняння, це різні дані, набір на Веб-сайт CDC показує випадки COVID за віковими групами з додатковими даними про відсоток населення США в кожному віковому діапазоні.  

Це краще. Ми маємо більше контексту. Ми бачимо, що вікові групи 18-29, 30-39, 40-49 мають вищий відсоток випадків, ніж відсоток вікової групи в популяції. Є ще деякі нерівномірні вікові групи. Чому 16-17 років є окремою віковою групою? Це ще не вся історія, але експерти писали колонки, робили прогнози та накази щодо меншого. Очевидно, що з COVID існує багато змінних, окрім віку, які впливають на зарахування як позитивний випадок: статус вакцинації, наявність тестів, кількість тестувань, супутні захворювання та багато інших. Сама кількість випадків дає неповну картину. Більшість експертів також розглядають кількість смертей, або відсоток смертей на 100,000 XNUMX населення, або летальні випадки, щоб побачити, як COVID впливає на кожну вікову групу.

Показати непов’язані кореляції

Очевидно, що є сильна кореляція між витратами США на науку, космос і технології та кількістю самогубств шляхом повішення, удушення та удушення. Кореляція становить 99.79%, майже ідеальна відповідність.  

Але хто б стверджував, що вони якось пов’язані між собою або одне викликає інше? Є й інші менш екстремальні приклади, але не менш фальшиві. Існує подібна сильна кореляція між буквами у Winning Word of Scripps National Spelling Bee та кількістю людей, убитих отруйними павуками. Випадковість? Тобі вирішувати.

Іншим способом побудови цих даних, який може бути менш оманливим, було б включити нуль на обидві осі Y.

Показати дані неточно

Від Як погано відображати даніштат Джорджія представив ТОП-5 округів з найбільшою кількістю підтверджених випадків COVID-19.

Виглядає законно, правда? Очевидно, спостерігається тенденція до зниження підтверджених випадків COVID-19. Ви можете читати вісь X? Вісь Х представляє час. Як правило, дати збільшуються зліва направо. Тут ми бачимо невелику подорож у часі на осі X: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

Зачекайте? Що? Вісь Х не відсортована в хронологічному порядку. Тож, як би гарно не виглядала ця тенденція, ми не можемо робити жодних висновків. Якщо дати впорядковані, стовпчики для кількості випадків показують більше пилкоподібний візерунок, ніж будь-яку тенденцію.

Найпростіше виправити тут — відсортувати дати так, як це робить календар.

Показуйте дані нетрадиційно

Ми всі зайняті. Наш мозок навчив нас робити швидкі судження на основі припущень, які були послідовними в нашому світі. Наприклад, кожен графік, який я коли-небудь бачив, показує, що осі x і y зустрічаються на нульових або найнижчих значеннях. Коротко переглянувши цю діаграму, які висновки ви можете зробити про вплив Флориди «Дотримуйтесь свого закону.”? Мені соромно це визнати, але цей графік спочатку ввів мене в оману. Ваше око зручно звернути до тексту та стрілки в середині графіки. Вниз на цьому графіку вгору. Можливо, це не брехня – усі дані там є. Але, я повинен думати, що це призначено для обману. Якщо ви ще цього не бачили, нуль на осі Y знаходиться вгорі. Отже, коли дані зменшуються, це означає більше смертей. Ця діаграма показує, що кількість вбивств з використанням вогнепальної зброї збільшений після 2005 р., про що свідчить тенденція вниз.

Показати дані надто спрощено

Один із прикладів надмірного спрощення даних можна побачити, коли аналітики використовують парадокс Сімпсона. Це явище, яке виникає, коли зведені дані демонструють інший висновок, ніж коли їх розділено на підмножини. У цю пастку легко потрапити, дивлячись на агреговані відсотки високого рівня. Одна з найяскравіших ілюстрацій Парадоксу Сімпсона на роботі пов’язана з ватин середні.  

Тут ми бачимо, що Дерек Джетер має вищий загальний середній показник, ніж Девід Джастіс за сезони 1995 і 1996 років. Парадокс виникає, коли ми розуміємо, що Джастіс перевершив Джетера за середнім ударом обидва ці роки. Якщо ви уважно подивитеся, це має сенс, коли ви зрозумієте, що Джетер мав приблизно в 4 рази більше битів (знаменник) у 1996 році при нижчому середньому показнику на 007 у 1996 році. Тоді як у Джастіса було приблизно в 10 разів більше битів при лише . 003 вищий середній показник у 1995 році.

Презентація здається прямолінійною, але Парадокс Сімпсона, свідомо чи мимоволі, привів до неправильних висновків. Нещодавно в новинах і соціальних мережах з’явилися приклади парадоксу Сімпсона, пов’язані з вакцинами та смертністю від COVID. Один намітити показує лінійний графік, на якому порівнюється рівень смертності між щепленими та невакцинованими для людей віком 10-59 років. Діаграма демонструє, що невакциновані стабільно мають нижчий рівень смертності. Що тут відбувається?  

Проблема схожа на ту, яку ми бачимо із середніми показниками ватин. Знаменником у цьому випадку є кількість особин у кожній віковій групі. Графік поєднує групи з різними результатами. Якщо окремо поглянути на старшу вікову групу 50-59 років, то бачимо, що вакциновані живуть краще. Так само, якщо ми подивимося на 10-49, ми також побачимо, що вакциновані живуть краще. Як не парадоксально, якщо дивитися на комбінований набір, невакциновані мають гірший результат. Таким чином ви можете обґрунтувати протилежні аргументи, використовуючи дані.

Дані упереджені

Даним не завжди можна довіряти. Навіть у науковому співтоваристві більше третини опитаних дослідників зізналися «сумнівна дослідницька практика».  Інший детектив дослідження шахрайства каже: «Імовірно, шахрайства з даними – таблицями, лінійними графіками, даними послідовності – набагато більше, ніж ми насправді виявляємо». Будь-хто, хто сидить за своїм кухонним столом, може ввести деякі числа в електронну таблицю і зробити лінійний графік, який виглядає переконливо».

Це перше приклад схоже, хтось зробив саме це. Я не кажу, що це шахрайство, але як опитування, воно просто не генерує жодних даних, які б сприяли прийняттю обґрунтованого рішення. Схоже, під час опитування респондентів запитували про їхню думку про каву на АЗС чи іншу актуальну подію. 

  1. Чудовий 
  2. Великий
  3. Дуже добре 

Я обрізав пост у Твіттері, щоб видалити посилання на винну сторону, але це фактично вся таблиця остаточних результатів опитування. Подібні опитування не рідкість. Очевидно, що будь-яка діаграма, створена на основі даних, отриманих у результаті відповідей, покаже, яку каву не можна пропустити.  

Проблема полягає в тому, що якби вам дали це опитування і ви не знайшли відповіді, яка б відповідала вашим думкам, ви б пропустили опитування. Це може бути яскравим прикладом того, як можуть створюватися ненадійні дані. Однак поганий дизайн опитування може призвести до меншої кількості відповідей, і ті, хто відповість, матимуть лише одну думку, це лише питання ступеня. Дані упереджені.

Цей другий приклад зміщення даних взято з файлів "Найгірші оманливі графіки COVID 19». 

Знову ж таки, це тонко і не зовсім очевидно. Гістограма показує плавне – майже надто плавне – зниження відсотка позитивних випадків COVID-19 з часом в окрузі Флориди. Можна легко зробити висновок, що кількість випадків зменшується. Це чудово, візуалізація точно представляє дані. Проблема в даних. Отже, це більш підступне упередження, тому що ви не можете цього побачити. Це запікається в даних. Запитання, які вам потрібно поставити, включають, хто проходить тестування? Іншими словами, що таке знаменник, чи популяція, яку ми розглядаємо у відсотках. Припускається, що це вся сукупність або, принаймні, репрезентативна вибірка.

Однак протягом цього періоду в цьому окрузі тести проходили лише для обмеженої кількості людей. Вони повинні були мати симптоми, схожі на COVID, або нещодавно подорожували до країни зі списку гарячих точок. Крім того, результати спотворює той факт, що кожен позитивний тест враховується, а кожен негативний тест враховується. Як правило, коли людина виявляла позитивний результат, вона проводила повторне тестування, коли вірус закінчився, і тест давав негативний результат. Отже, у певному сенсі для кожного позитивного випадку існує негативний тестовий випадок, який скасовує його. Переважна більшість тестів є негативними, і негативні тести кожного окремо були підраховані. Ви можете побачити, наскільки дані упереджені та не особливо корисні для прийняття рішень. 

ШІ-введення та навчання є упередженими

Існує принаймні два способи, за допомогою яких штучний інтелект може призвести до упереджених результатів: починаючи з упереджених даних або використовуючи упереджені алгоритми для обробки дійсних даних.  

Упереджений вхід

У багатьох із нас склалося враження, що штучному інтелекту можна довіряти обчисленню цифр, застосуванню його алгоритмів і надійному аналізу даних. Штучний інтелект може бути настільки розумним, наскільки він навчений. Якщо дані, на основі яких він навчається, недосконалі, результатам або висновкам також не можна буде довіряти. Подібно до випадку з упередженням опитування, поданого вище, дані можуть бути різними упереджений у машинному навчанні:.  

  • Зміщення вибірки – навчальний набір даних не є репрезентативним для всієї сукупності.
  • Упередженість виключення – іноді те, що здається викидом, насправді є дійсним або, де ми проводимо межу щодо того, що слід включити (поштові індекси, дати тощо).
  • Похибка вимірювання – прийнято завжди вимірювати від центру та дна меніска, наприклад, під час вимірювання рідин у мірних колбах або пробірках (крім ртуті).
  • Упередженість пригадування – коли дослідження залежить від пам’яті учасників.
  • Упередженість спостерігача – вчені, як і всі люди, більш схильні бачити те, що вони очікують побачити.
  • Сексистські та расистські упередження – стать або раса можуть бути надмірно або недостатньо представлені.  
  • Упередженість асоціацій – дані зміцнюють стереотипи

Щоб штучний інтелект давав надійні результати, його навчальні дані мають відображати реальний світ. Як ми обговорювали в попередній статті блогу, підготовка даних є критично важливою, як і будь-який інший проект даних. Ненадійні дані можуть навчити системам машинного навчання неправильний урок і призвести до неправильних висновків. При цьому йдеться: «Усі дані є упередженими. Це не параноя. Це факт». – Доктор Санджив М. Нараян, Медична школа Стенфордського університету.

Використання упереджених даних для навчання призвело до ряду помітних збоїв ШІ. (Приклади тут та тут, дослідження тут..)

Упереджені алгоритми

Алгоритм — це набір правил, які приймають вхідні дані та створюють вихідні дані для вирішення бізнес-проблеми. Часто це чітко визначені дерева рішень. Алгоритми виглядають як чорні ящики. Часто ніхто не впевнений, як вони працюють, навіть компанії, які їх використовують. О, і вони часто є власністю. Їх таємнича і складна природа є однією з причин, чому упереджені алгоритми такі підступні. . 

Розглянемо алгоритми ШІ в медицині, кадрах або фінансах, які враховують расу. Якщо раса є фактором, алгоритм не може бути расово сліпим. Це не теоретично. Подібні проблеми були виявлені в реальному світі за допомогою ШІ наймання, поїздка-поділ, Заявка на одержання позикиs, і трансплантація нирок

Суть полягає в тому, що якщо ваші дані чи алгоритми погані, гірше, ніж марні, вони можуть бути небезпечними. Є таке поняття як "алгоритмічний аудит.” Мета полягає в тому, щоб допомогти організаціям визначити потенційні ризики, пов’язані з алгоритмом, оскільки він стосується справедливості, упередженості та дискримінації. в іншому місці, Facebook використовує штучний інтелект для боротьби з упередженістю в штучному інтелекті.

Люди упереджені

У нас є люди по обидва боки рівняння. Люди готують аналіз і люди отримують інформацію. Є дослідники і є читачі. У будь-якому спілкуванні можуть виникнути проблеми в передачі або прийомі.

Візьмемо, наприклад, погоду. Що означає «імовірність дощу»? По-перше, що мають на увазі метеорологи, коли кажуть, що ймовірний дощ? За даними уряду США Національна служба погоди, ймовірність дощу, або те, що вони називають ймовірністю опадів (PoP), є одним із найменш зрозумілих елементів у прогнозі погоди. Він має стандартне визначення: «Імовірність опадів — це просто статистична ймовірність того, що на 0.01 дюйма [sic] [sic] більше опадів у певній місцевості в даній прогнозованій зоні за вказаний період часу». «Дана область» є прогнозованою територією, або broadобласть лиття. Це означає, що офіційна ймовірність опадів залежить від впевненості, що десь у цьому регіоні буде дощ, і відсотка території, яка буде вологою. Іншими словами, якщо метеоролог впевнений, що в прогнозованій зоні йтиме дощ (Достовірність = 100%), то PoP представляє частину території, де буде дощ.  

Паризька вулиця; Дощовий день,Гюстав Кайботт (1848-1894) Чиказький художній інститут, суспільне надбання

Імовірність дощу залежить як від впевненості, так і від місцевості. Я не знаю, що. Я підозрюю, що інші люди також цього не знають. Близько 75% населення точно не розуміють, як розраховується PoP або що воно означає. Отже, нас дурять, чи це проблема сприйняття. Назвемо це сприйняттям опадів. Звинувачувати синоптика? Чесно кажучи, деякі є замішання серед синоптиків теж. В одному огляд43% опитаних метеорологів сказали, що у визначенні PoP дуже мало послідовності.

Сам аналіз упереджений

З п’яти факторів впливу сам аналіз може бути найбільш несподіваним. У наукових дослідженнях, результатом яких є публікація рецензованої статті, як правило, висувається гіпотеза про теорію, визначаються методи перевірки гіпотези, збираються дані, а потім аналізуються дані. Тип аналізу, який проводиться, і те, як це робиться, недооцінюються в тому, як він впливає на висновки. В папір опублікованому на початку цього року (січень 2022 р.) у Міжнародному журналі раку, автори оцінили результати рандомізованих контрольованих досліджень і ретроспективних обсерваційних досліджень. Їх висновки зробили висновок, що,

Змінюючи аналітичний вибір у порівняльних дослідженнях ефективності, ми отримали протилежні результати. Наші результати показують, що деякі ретроспективні обсерваційні дослідження можуть виявити, що лікування покращує результати для пацієнтів, тоді як інше подібне дослідження може виявити, що це не так, просто на основі аналітичного вибору.

Раніше, читаючи статтю в науковому журналі, якщо ви схожі на мене, ви могли подумати, що результати чи висновки пов’язані з даними. Тепер виявляється, що результати або те, чи буде початкова гіпотеза підтверджена чи спростована, також можуть залежати від методу аналізу.

Інший вчитися знайшли подібні результати. Стаття, Багато аналітиків, один набір даних: прозорість того, як варіації аналітичних рішень впливають на результати, описує, як вони передали той самий набір даних 29 різним командам для аналізу. Аналіз даних часто розглядається як суворий, чітко визначений процес, який веде до єдиного висновку.  

Незважаючи на застереження методологів, легко не помітити той факт, що результати можуть залежати від обраної аналітичної стратегії, яка сама по собі просякнута теорією, припущеннями та пунктами вибору. У багатьох випадках існує багато розумних (і багато нерозумних) підходів до оцінки даних, які стосуються питання дослідження.

Дослідники провели краудсорсинговий аналіз даних і дійшли висновку, що всі дослідження включають суб’єктивні рішення – зокрема, який тип аналізу використовувати – які можуть вплинути на кінцевий результат дослідження.

Рекомендація іншого дослідник хто проаналізував вищезгадане дослідження, має бути обережним, використовуючи один документ для прийняття рішень або висновків.

Усунення упередженості в Analytics

Це просто застереження. Знання можуть захистити нас від шахрайства. Чим більше ми знаємо про можливі методи, які може використати сканер, щоб нас обдурити, тим менша ймовірність того, що ми будемо захоплені, скажімо, кишеньковим злодієм або простою розмовою про п’єсу Понці. Так само і з розумінням і розпізнаванням потенційних упереджень, які впливають на нашу аналітику. Якщо ми усвідомлюємо потенційні впливи, ми зможемо краще представити історію та зрештою приймати кращі рішення.  

BI/АналітикаБез категорії
Чому Microsoft Excel є аналітичним інструментом №1
Чому Excel — інструмент аналітики №1?

Чому Excel — інструмент аналітики №1?

  Це дешево та легко. Програмне забезпечення для роботи з електронними таблицями Microsoft Excel, ймовірно, уже встановлено на комп’ютері бізнес-користувача. Багато користувачів сьогодні стикаються з програмним забезпеченням Microsoft Office ще зі школи або навіть раніше. Ця різка реакція на...

Детальніше

BI/АналітикаБез категорії
Розчистіть свою статистику: посібник із весняного прибирання Analytics

Розчистіть свою статистику: посібник із весняного прибирання Analytics

Розчистіть свою думку Посібник з аналітики Весняне прибирання Новий рік починається з тріску; звіти за кінець року створюються та ретельно перевіряються, а потім усі влаштовуються за послідовним графіком роботи. Коли дні стають довшими, а дерева та квіти розквітають,...

Детальніше

BI/АналітикаБез категорії
NY Style проти Chicago Style Pizza: смачна дискусія

NY Style проти Chicago Style Pizza: смачна дискусія

Коли ми задовольняємо бажання, мало що може зрівнятися з насолодою гарячого шматка піци. Дебати між нью-йоркською та чиказькою піцою викликали пристрасні дискусії протягом десятиліть. Кожен стиль має свої унікальні особливості та відданих шанувальників....

Детальніше

BI/АналітикаАналітика Cognos
Cognos Query Studio
Ваші користувачі хочуть свою студію запитів

Ваші користувачі хочуть свою студію запитів

З випуском IBM Cognos Analytics 12 давно оголошене припинення підтримки Query Studio та Analysis Studio нарешті було представлено разом із версією Cognos Analytics без цих студій. Хоча це не повинно бути несподіванкою для більшості людей, які займаються...

Детальніше

BI/АналітикаБез категорії
Чи реальний ефект Тейлора Свіфта?

Чи реальний ефект Тейлора Свіфта?

Деякі критики припускають, що вона підвищує ціни на квитки на Суперкубок. Очікується, що на цих вихідних Суперкубок увійде в трійку найпопулярніших подій в історії телебачення. Ймовірно, більше, ніж минулорічні рекордні цифри і, можливо, навіть більше, ніж місяць 3 року...

Детальніше

BI/Аналітика
Каталоги Analytics – висхідна зірка в екосистемі Analytics

Каталоги Analytics – висхідна зірка в екосистемі Analytics

Вступ Як головний технічний директор (CTO), я завжди стежу за новими технологіями, які змінюють наш підхід до аналітики. Однією з таких технологій, яка привернула мою увагу протягом останніх кількох років і має величезні перспективи, є Analytics...

Детальніше