Аналитика Ложь

by Август 31, 2022BI/Аналитикакомментарии 0

Аналитика Ложь

Предвзятость анализа

 

Марк Твен спорно сказал что-то вроде: «Есть три вида лжи: ложь, наглая ложь и аналитика". 

Мы считаем само собой разумеющимся, что аналитика дает нам полезную и действенную информацию. Чего мы часто не осознаем, так это того, как наши собственные и чужие предубеждения влияют на ответы, которые нам дает даже самое сложное программное обеспечение и системы. Иногда нами могут манипулировать нечестно, но чаще это могут быть тонкие и бессознательные предубеждения, которые проникают в нашу аналитику. Мотивация предвзятой аналитики многогранна. Иногда на беспристрастные результаты, которые мы ожидаем от науки, влияют 1) тонкий выбор способа представления данных, 2) противоречивые или нерепрезентативные данные, 3) обучение систем ИИ, 4) невежество, некомпетентность исследователей или других лиц, пытающихся рассказать историю, 5) сам анализ.    

Презентация предвзята

Некоторую ложь обнаружить легче, чем другую. Когда вы знаете, что искать, вам будет легче обнаружить потенциально вводящие в заблуждение графики и диаграммы. 

Есть по крайней мере пять способов ввести в заблуждение отображение данных: 1) Показать ограниченный набор данных, 2). Показать несвязанные корреляции, 3) показать данные неточно, 4) показать данные нетрадиционно или 5). Показать данные в упрощенном виде.

Показать ограниченный набор данных

Ограничение данных или ручной выбор неслучайной части данных часто может рассказать историю, которая не согласуется с общей картиной. Плохая выборка или выбор вишни — это когда аналитик использует нерепрезентативную выборку для представления большей группы. 

В марте 2020, Департамент общественного здравоохранения Грузии опубликовал этот график как часть своего ежедневного отчета о состоянии. На самом деле он вызывает больше вопросов, чем дает ответов.  

Одной из вещей, которых не хватает, является контекст. Например, было бы полезно знать, каков процент населения для каждой возрастной группы. Еще одна проблема с простой на вид круговой диаграммой — неравномерность возрастных групп. 0-17 имеют 18 лет, 18-59 - 42, 60+ - открытый, но около 40 лет. Вывод, основанный только на этой диаграмме, заключается в том, что большинство случаев приходится на возрастную группу 18–59 лет. Возрастная группа старше 60 лет, по-видимому, менее сильно затронута случаями COVID. Но это не вся история.

Для сравнения, этот другой набор данных на веб-сайт ЦКЗ отображает случаи COVID по возрастным группам с дополнительными данными о процентной доле населения США в каждом возрастном диапазоне.  

Это лучше. У нас больше контекста. Мы видим, что возрастные группы 18–29, 30–39, 40–49 лет имеют более высокий процент заболеваемости, чем процент возрастной группы в популяции. По-прежнему существуют неравномерные возрастные группы. Почему 16-17 лет выделены в отдельную возрастную группу? Тем не менее, это еще не все, но ученые мужи писали колонки, делали прогнозы и распоряжения не только об этом. Очевидно, что в случае с COVID есть много переменных, помимо возраста, которые влияют на то, чтобы считаться положительным случаем: статус вакцинации, доступность тестов, количество тестов, сопутствующие заболевания и многие другие. Количество случаев само по себе дает неполную картину. Большинство экспертов также обращают внимание на количество смертей, или процент смертей на 100,000 XNUMX населения, или летальность, чтобы посмотреть, как COVID влияет на каждую возрастную группу.

Показать несвязанные корреляции

Очевидно, существует сильная корреляция между расходами США на науку, космос и технологии и количеством самоубийств через повешение, удушение и удушение. Корреляция составляет 99.79%, почти идеальное совпадение.  

Но кто станет утверждать, что они каким-то образом связаны или что одно вызывает другое? Есть и другие, менее экстремальные примеры, но не менее ложные. Существует аналогичная сильная корреляция между буквами в Winning Word of Scripps National Spelling Bee и количеством людей, убитых ядовитыми пауками. Стечение обстоятельств? Вам решать.

Другим способом отображения этих данных, который может ввести в заблуждение, было бы включение нуля по обеим осям Y.

Неточно отображать данные

от Как плохо отображать данные, штат Джорджия США представил топ-5 округов с наибольшим количеством подтвержденных случаев COVID-19.

Выглядит законно, верно? Налицо явная тенденция к снижению числа подтвержденных случаев COVID-19. Вы умеете читать по оси X? Ось X представляет время. Как правило, даты увеличиваются слева направо. Здесь мы видим небольшое перемещение во времени по оси X: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

Ждать? Какая? Ось X не отсортирована в хронологическом порядке. Итак, какой бы красивой ни казалась тенденция, мы не можем делать никаких выводов. Если даты упорядочены, столбцы количества случаев показывают скорее пилообразный паттерн, чем какой-либо тренд.

Простое решение здесь — отсортировать даты так, как это делает календарь.

Нестандартное отображение данных

Мы все заняты. Наш мозг научил нас делать быстрые суждения, основанные на предположениях, которые были последовательными в нашем мире. Например, каждый график, который я когда-либо видел, показывает, что оси x и y пересекаются в нуле или наименьших значениях. Кратко взглянув на эту диаграмму, какие выводы вы можете сделать о влиянии Флориды на «Стой свой основной закон.”? Стыдно признаться, но этот график сначала меня ввел в заблуждение. Ваш взгляд удобно притягивается к тексту и стрелке в середине рисунка. Вниз на этом графике. Может быть, это и не ложь — с данными все в порядке. Но, я должен думать, что это предназначено, чтобы обмануть. Если вы еще этого не видели, ноль по оси Y находится вверху. Таким образом, чем больше данных, тем больше смертей. На этой диаграмме видно, что количество убийств с применением огнестрельного оружия расширились после 2005 года, на что указывает тенденция вниз.

Показать данные в упрощенном виде

Один из примеров чрезмерного упрощения данных можно увидеть, когда аналитики используют парадокс Симпсона. Это явление возникает, когда агрегированные данные демонстрируют другой вывод, чем когда они разделены на подмножества. В эту ловушку легко попасть, глядя на агрегированные проценты высокого уровня. Одна из самых ярких иллюстраций парадокса Симпсона в действии связана с средние показатели.  

Здесь мы видим, что у Дерека Джетера средний средний результат выше, чем у Дэвида Джастиса за сезоны 1995 и 1996 годов. Парадокс возникает, когда мы понимаем, что Джастис превзошел Джетера по среднему показателю оба эти года. Если вы посмотрите внимательно, то поймете, что у Джетера было примерно в 4 раза больше летучих мышей (знаменатель) в 1996 году, а средний показатель в 007 году был на 1996 ниже. 10 выше среднего в 003 году.

Изложение кажется простым, но парадокс Симпсона вольно или невольно привел к неверным выводам. В последнее время в новостях и социальных сетях появились примеры парадокса Симпсона, связанные с вакцинами и смертностью от COVID. Один наметить показывает линейный график, сравнивающий уровни смертности между вакцинированными и непривитыми людьми в возрасте 10-59 лет. Диаграмма показывает, что непривитые постоянно имеют более низкий уровень смертности. Что тут происходит?  

Проблема похожа на ту, что мы видим со средними показателями. Знаменатель в этом случае является числом особей в каждой возрастной группе. Граф объединяет группы, которые имеют разные результаты. Если мы посмотрим на старшую возрастную группу, 50-59 лет, отдельно, то увидим, что привитые живут лучше. Точно так же, если мы посмотрим на 10-49, мы также увидим, что вакцинированные живут лучше. Как это ни парадоксально, если посмотреть на комбинированный набор, у непривитых результат будет хуже. Таким образом, вы можете обосновать противоположные аргументы, используя данные.

Данные необъективны

Данным не всегда можно доверять. Даже в научном сообществе более трети опрошенных исследователей признались, что «сомнительная исследовательская практика».  Другой детектив по расследованию мошенничества говорит: «Очень вероятно, что в данных — таблицах, линейных графиках, данных секвенирования — гораздо больше мошенничества [— чем мы на самом деле обнаруживаем]. Любой, кто сидит за кухонным столом, может ввести несколько чисел в электронную таблицу и построить линейный график, который выглядит убедительно».

Это первое пример похоже кто-то так и сделал. Я не говорю, что это мошенничество, но как опрос, он просто не генерирует никаких данных, которые способствуют принятию обоснованного решения. Похоже, что в ходе опроса респондентов спрашивали, что они думают о кофе на заправке или о каком-то другом актуальном текущем событии. 

  1. Превосходный 
  2. Большой
  3. Очень хорошо 

Я обрезал сообщение в Твиттере, чтобы удалить упоминания о виновной стороне, но это фактически вся таблица окончательных результатов опроса. Подобные опросы не редкость. Очевидно, что любая диаграмма, созданная на основе данных, полученных в результате ответов, покажет, что кофе, о котором идет речь, нельзя пропустить.  

Проблема в том, что если бы вам дали этот опрос и вы не нашли ответа, соответствующего вашему мнению, вы бы пропустили опрос. Это может быть крайним примером того, как могут быть созданы ненадежные данные. Однако плохой дизайн опроса может привести к меньшему количеству ответов, и те, кто отвечает, имеют только одно мнение, это просто вопрос степени. Данные необъективны.

Этот второй пример предвзятости данных взят из файлов «Худшие вводящие в заблуждение графики COVID 19". 

Опять же, это тонко и не совсем очевидно. Гистограмма показывает плавное — почти слишком плавное — снижение процента положительных случаев COVID-19 с течением времени для округа во Флориде. Можно легко сделать вывод, что число случаев снижается. Это здорово, визуализация точно представляет данные. Проблема в данных. Итак, это более коварная предвзятость, потому что вы ее не видите. Это встроено в данные. Вопросы, которые вам нужно задать, включают: кто проходит тестирование? Другими словами, каков знаменатель или население, которое мы рассматриваем в процентах. Предполагается, что это вся совокупность или, по крайней мере, репрезентативная выборка.

Однако в этот период в этом округе тесты проходили только у ограниченного числа людей. У них должны были быть симптомы, похожие на COVID, или они недавно путешествовали в страну из списка горячих точек. Кроме того, смущает результаты тот факт, что учитывался каждый положительный тест и каждый отрицательный тест. Как правило, когда у человека был положительный результат, он проводил повторный тест, когда вирус исчерпал себя, и давал отрицательный результат. Таким образом, в некотором смысле для каждого положительного случая есть отрицательный тестовый случай, который его отменяет. Подавляющее большинство тестов отрицательные, и были подсчитаны отрицательные тесты каждого человека. Вы можете видеть, насколько данные предвзяты и не особенно полезны для принятия решений. 

Ввод и обучение ИИ предвзяты

Есть по крайней мере два способа, которыми ИИ может привести к предвзятым результатам: начать с предвзятых данных или использовать предвзятые алгоритмы для обработки достоверных данных.  

Предвзятый ввод

У многих из нас сложилось впечатление, что ИИ можно доверять в обработке чисел, применении его алгоритмов и достоверном анализе данных. Искусственный интеллект может быть настолько умным, насколько он обучен. Если данные, на которых он обучается, несовершенны, то и результатам или выводам нельзя будет доверять. Как и в случае с предвзятостью опроса, описанном выше, существует несколько способов, которыми данные могут быть пристрастный в машинном обучении:.  

  • Смещение выборки — обучающий набор данных не является репрезентативным для всего населения.
  • Предвзятость исключения — иногда то, что кажется выбросом, на самом деле является действительным, или когда мы проводим черту над тем, что включать (почтовые индексы, даты и т. д.).
  • Систематическая погрешность измерения – принято всегда измерять от центра и нижней части мениска, например, при измерении жидкостей в мерных колбах или пробирках (кроме ртути).
  • Предвзятость напоминания — когда исследование зависит от памяти участников.
  • Предвзятость наблюдателя — ученые, как и все люди, более склонны видеть то, что ожидают увидеть.
  • Сексистские и расистские предубеждения: пол или раса могут быть чрезмерно или недостаточно представлены.  
  • Предвзятость ассоциации — данные укрепляют стереотипы

Чтобы ИИ давал надежные результаты, его обучающие данные должны отражать реальный мир. Как мы обсуждали в предыдущей статье в блоге, подготовка данных имеет решающее значение, как и любой другой проект данных. Ненадежные данные могут преподать системам машинного обучения неверный урок и привести к неверным выводам. Тем не менее, «Все данные необъективны. Это не паранойя. Это факт." – Доктор Санджив М. Нараян, Медицинская школа Стэнфордского университета.

Использование необъективных данных для обучения привело к ряду заметных сбоев ИИ. (Примеры здесь и здесь, исследование здесь..) Окно выдачи

Предвзятые алгоритмы

Алгоритм — это набор правил, которые принимают входные данные и создают выходные данные для решения бизнес-задачи. Часто они представляют собой четко определенные деревья решений. Алгоритмы похожи на черные ящики. Часто никто не уверен, как они работают, даже компании, которые их используют. О, и они часто являются собственностью. Их таинственная и сложная природа — одна из причин, почему предвзятые алгоритмы так коварны. . 

Рассмотрим алгоритмы ИИ в медицине, HR или финансах, которые учитывают расу. Если раса является фактором, алгоритм не может быть расово слепым. Это не теоретически. Проблемы, подобные этим, были обнаружены в реальном мире с использованием ИИ в наем, райдшеринг, заявка на получение ссудыс, а пересадка почек

Суть в том, что если ваши данные или алгоритмы плохи, хуже, чем бесполезны, они могут быть опасны. Есть такое понятие как "алгоритмический аудит». Цель состоит в том, чтобы помочь организациям определить потенциальные риски, связанные с алгоритмом, поскольку он связан со справедливостью, предвзятостью и дискриминацией. В другом месте, Facebook использует ИИ для борьбы с предвзятостью в ИИ.

Люди предвзяты

У нас есть люди по обе стороны уравнения. Люди готовят анализ и люди получают информацию. Есть исследователи и есть читатели. При любом общении могут быть проблемы при передаче или приеме.

Возьмем, к примеру, погоду. Что означает «вероятность дождя»? Во-первых, что имеют в виду метеорологи, когда говорят, что возможен дождь? По данным правительства США Национальная служба погоды, вероятность дождя, или то, что они называют вероятностью осадков (PoP), является одним из наименее понятных элементов прогноза погоды. У него есть стандартное определение: «Вероятность осадков — это просто статистическая вероятность того, что на 0.01 дюйма [так в оригинале] больше осадков в данной области в данной области прогноза в указанный период времени». «Заданный район» — это прогнозируемый район, или broadплощадь литья. Это означает, что официальная вероятность осадков зависит от уверенности в том, что где-то в этом районе пойдет дождь, и от процента территории, которая намокнет. Другими словами, если метеоролог уверен, что в прогнозируемой области пойдет дождь (достоверность = 100%), то PoP представляет собой часть области, в которой будет идти дождь.  

Парижская улица; Дождливый день, Гюстав Кайботт (1848-1894) Чикагский художественный институт Public Domain

Вероятность дождя зависит как от уверенности, так и от района. Я не знал этого. Я подозреваю, что другие люди тоже этого не знают. Около 75% населения не совсем понимают, как рассчитывается PoP или что он должен представлять. Итак, нас обманывают, или это проблема восприятия. Назовем это восприятием осадков. Виним ли мы синоптика? Справедливости ради, есть некоторые замешательство среди синоптиков тоже. В одной ,, 43% опрошенных метеорологов заявили, что в определении PoP очень мало последовательности.

Сам анализ предвзят

Из пяти влияющих факторов сам анализ может оказаться самым неожиданным. В научном исследовании, в результате которого публикуется рецензируемая статья, обычно выдвигается гипотеза, определяются методы проверки гипотезы, собираются данные, а затем данные анализируются. Тип проводимого анализа и то, как он проводится, недооцениваются с точки зрения того, как он влияет на выводы. В бумаги опубликованном ранее в этом году (январь 2022 г.) в International Journal of Cancer, авторы оценивали, соответствуют ли результаты рандомизированных контролируемых испытаний и ретроспективных обсервационных исследований. Их выводы пришли к выводу, что,

Варьируя аналитический выбор в исследованиях сравнительной эффективности, мы получали противоположные результаты. Наши результаты показывают, что некоторые ретроспективные обсервационные исследования могут обнаружить, что лечение улучшает исходы для пациентов, в то время как другое подобное исследование может обнаружить, что это не так, просто на основе аналитического выбора.

В прошлом, читая статью в научном журнале, вы, как и я, могли подумать, что все результаты или выводы основаны на данных. Теперь оказывается, что результаты или подтверждение или опровержение исходной гипотезы также могут зависеть от метода анализа.

Другой Исследование нашел похожие результаты. Статья, Много аналитиков, один набор данных: прояснить, как различия в аналитических решениях влияют на результаты, описывает, как они передали один и тот же набор данных 29 различным командам для анализа. Анализ данных часто рассматривается как строгий, четко определенный процесс, который приводит к одному выводу.  

Несмотря на возражения методологов, легко упустить из виду тот факт, что результаты могут зависеть от выбранной аналитической стратегии, которая сама по себе пропитана теорией, предположениями и точками выбора. Во многих случаях существует много разумных (и много неразумных) подходов к оценке данных, имеющих отношение к вопросу исследования.

Исследователи собрали анализ данных и пришли к выводу, что все исследования включают субъективные решения, в том числе, какой тип анализа использовать, которые могут повлиять на конечный результат исследования.

Рекомендация другого исследователь кто проанализировал вышеупомянутое исследование, должен быть осторожным при использовании одной статьи в принятии решений или выводах.

Борьба с предвзятостью в аналитике

Это просто предостерегающая история. Знания могут защитить нас от мошенничества. Чем лучше мы осведомлены о возможных методах, которые сканер может использовать, чтобы одурачить нас, тем меньше вероятность того, что мы попадемся, скажем, на неверный путь карманника или на гладкие разговоры о понциевской игре. Так же и с пониманием и распознаванием потенциальных предубеждений, влияющих на нашу аналитику. Если мы будем знать о потенциальных влияниях, мы сможем лучше представить историю и, в конечном счете, принять более правильные решения.  

BI/АналитикаРазное
Почему Microsoft Excel является инструментом аналитики №1
Почему Excel является инструментом аналитики №1?

Почему Excel является инструментом аналитики №1?

  Это дешево и легко. Программное обеспечение для работы с электронными таблицами Microsoft Excel, вероятно, уже установлено на компьютере бизнес-пользователя. И многие пользователи сегодня знакомы с программным обеспечением Microsoft Office еще со школы или даже раньше. Этот рефлекторный ответ на...

Узнать больше

BI/АналитикаРазное
Наведите порядок в своих знаниях: руководство по аналитике. Весенняя уборка

Наведите порядок в своих знаниях: руководство по аналитике. Весенняя уборка

Наведите порядок в своих идеях. Руководство по аналитике. Весенняя уборка. Новый год начинается с трепета; Отчеты на конец года создаются и тщательно изучаются, а затем все приспосабливаются к последовательному графику работы. Дни становятся длиннее, а деревья и цветы цветут...

Узнать больше

BI/АналитикаРазное
Нью-йоркская пицца против чикагской: вкусные дебаты

Нью-йоркская пицца против чикагской: вкусные дебаты

В удовлетворении нашей тяги мало что может соперничать с радостью от горячего куска пиццы. Споры о пицце в нью-йоркском и чикагском стиле вызывали страстные дискуссии на протяжении десятилетий. Каждый стиль имеет свои уникальные особенности и преданных поклонников....

Узнать больше

BI/АналитикаКогнос Аналитика
Студия запросов Cognos
Вашим пользователям нужна их студия запросов

Вашим пользователям нужна их студия запросов

С выпуском IBM Cognos Analytics 12 давно объявленное прекращение поддержки Query Studio и Analysis Studio наконец было реализовано с версией Cognos Analytics без этих студий. Хотя это не должно стать неожиданностью для большинства людей, занимающихся...

Узнать больше

BI/АналитикаРазное
Реален ли эффект Тейлор Свифт?

Реален ли эффект Тейлор Свифт?

Некоторые критики предполагают, что она поднимает цены на билеты на Суперкубок. Ожидается, что Суперкубок в эти выходные войдет в тройку самых популярных событий в истории телевидения. Вероятно, больше, чем прошлогодние рекордные цифры, и, возможно, даже больше, чем на Луне 3 года...

Узнать больше

BI/Аналитика
Каталоги аналитики – восходящая звезда в экосистеме аналитики

Каталоги аналитики – восходящая звезда в экосистеме аналитики

Введение Как технический директор (CTO) я всегда ищу новые технологии, которые меняют наш подход к аналитике. Одной из таких технологий, которая привлекла мое внимание в последние несколько лет и которая имеет огромные перспективы, является Analytics...

Узнать больше