分析谎言

by 2022 年 8 月 31 日商业智能/分析0评论

分析谎言

分析偏差

 

马克吐温有争议地说过类似的话,“谎言分为三种:谎言,该死的谎言和 分析设立的区域办事处外,我们在美国也开设了办事处,以便我们为当地客户提供更多的支持。“ 

我们理所当然地认为分析为我们提供了有用的、可操作的见解。 我们常常没有意识到,我们自己和其他人的偏见如何影响即使是最复杂的软件和系统给出的答案。 有时,我们可能会被不诚实地操纵,但更常见的是,潜入我们的分析中的可能是微妙和无意识的偏见。 有偏见的分析背后的动机是多方面的。 有时,我们期望从科学中获得的公正结果受到以下因素的影响:1) 数据呈现方式的微妙选择,2) 不一致或不具代表性的数据,3) 人工智能系统的训练方式,4) 研究人员或其他尝试的无知、无能讲故事,5)分析本身。    

演示文稿有偏见

有些谎言比其他谎言更容易被发现。 当您知道要寻找什么时,您可能更容易检测到潜在的 误导性图形和图表。 

至少有 误导性显示数据的五种方法:1)显示有限的数据集,2)。 显示不相关的相关性,3) 不准确地显示数据,4) 非常规地显示数据,或 5)。 显示数据过于简单。

显示有限的数据集

限制数据或手动选择数据的非随机部分通常会讲述与大局不一致的故事。 不良抽样或樱桃采摘是指分析师使用非代表性样本来代表更大的群体。 

在三月2020, 佐治亚州公共卫生部 将此图表作为其每日状态报告的一部分发布。 它实际上提出的问题比它回答的要多。  

缺少的一件事是上下文。 例如,了解每个年龄组的人口百分比是有帮助的。 看起来简单的饼图的另一个问题是年龄组不均衡。 0-17 有 18 年,18-59 有 42 年,60+ 是开放式的,但大约有 40 年。 仅根据这张图表得出的结论是,大多数病例发生在 18-59 岁年龄段。 60 岁以上的年龄组受 COVID 病例的影响似乎较轻。 但这不是故事的全部。

为了比较,这个不同的数据集在 疾控中心网站 按年龄组绘制 COVID 病例图表,并附上每个年龄范围内的美国人口百分比的附加数据。  

这个更好。 我们有更多的背景。 我们可以看到,18-29、30-39、40-49 年龄段的病例比例都高于该年龄段在人口中的比例。 仍然有一些不平衡的年龄组。 为什么 16-17 岁是一个单独的年龄组? 但这还不是故事的全部,但专家们撰写的专栏文章、预测和授权的内容远不止于此。 显然,对于 COVID,除了年龄之外,还有许多变量会影响被视为阳性病例:疫苗接种状态、检测的可用性、检测的次数、合并症等等。 案件数量本身提供了不完整的画面。 大多数专家还会查看死亡人数或每 100,000 人口中的死亡百分比或病死率,以了解 COVID 如何影响每个年龄组。

显示不相关的相关性

显然,有一个 很强的相关性 美国在科学、空间和技术上的支出与因绞刑、勒死和窒息而自杀的人数之间存在差异。 相关性为 99.79%,几乎完美匹配。  

但是,谁会提出这些以某种方式相关,或者一个导致另一个? 还有其他不那么极端的例子,但同样虚假。 斯克里普斯全国拼字比赛中获奖的字母与被毒蜘蛛杀死的人数之间存在类似的强相关性。 巧合? 你决定。

绘制这些数据的另一种可能较少误导的方法是在两个 Y 轴上都包含零。

显示数据不准确

如何糟糕地显示数据,美国佐治亚州公布了确诊 COVID-5 病例数最多的前 19 个县。

看起来合法,对吧? 确诊的 COVID-19 病例明显呈下降趋势。 你能读懂X轴吗? X 轴代表时间。 通常,日期将从左到右增加。 在这里,我们在 X 轴上看到了一点时间旅行: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

等待? 什么? X 轴不按时间顺序排序。 因此,尽管趋势看起来不错,但我们无法得出任何结论。 如果对日期进行了排序,则病例数的条形图显示的锯齿形图案多于任何类型的趋势。

这里的简单解决方法是按照日历的方式对日期进行排序。

非常规地显示数据

我们都很忙。 我们的大脑已经教会我们根据世界上一贯的假设做出快速判断。 例如,我见过的每张图都显示 x 轴和 y 轴在零或最低值处相遇。 简单地看一下这张图表,你能得出什么关于佛罗里达州的影响的结论? “坚持你的基本法。”? 我很惭愧地承认这一点,但这张图表起初愚弄了我。 您的眼睛很容易被图形中间的文字和箭头所吸引。 在这张图表中向下是向上的。 这可能不是谎言——数据就在那里。 但是,我不得不认为这是为了欺骗。 如果您还没有看到它,y 轴上的零位于顶部。 因此,随着数据呈下降趋势,这意味着更多的死亡。 这张图表显示,使用枪支的谋杀案数量 增加 从 2005 年以后的趋势来看 向下.

显示过度简化的数据

当分析师利用辛普森悖论时,可以看到数据过度简化的一个例子。 当聚合数据似乎显示出与将其分成子集时不同的结论时,就会出现这种现象。 在查看高级汇总百分比时​​,很容易陷入这个陷阱。 辛普森悖论在工作中最清晰的例证之一与 击球率.  

在这里,我们看到 Derek Jeter 在 1995 和 1996 赛季的整体打击率高于 David Justice。 当我们意识到正义在这两年的平均击球率上都超过了杰特时,悖论就出现了。 如果您仔细观察,当您意识到 Jeter 在 4 年的平均击球次数(分母)增加了大约 1996 倍时,这是有道理的,而 007 年的平均击球次数则低了 1996 倍。而正义队的击球次数大约是 10 倍,仅为 . 003 高于 1995 年的平均值。

演示文稿看似简单,但辛普森悖论有意或无意地导致了错误的结论。 最近,新闻和社交媒体上出现了与疫苗和 COVID 死亡率相关的辛普森悖论的例子。 一 图表 显示了比较 10-59 岁人群接种疫苗和未接种疫苗的死亡率的折线图。 该图表表明,未接种疫苗的人始终具有较低的死亡率。 这里发生了什么?  

这个问题类似于我们在击球率上看到的问题。 在这种情况下,分母是每个年龄组的人数。 该图结合了具有不同结果的组。 如果我们分别查看年龄较大的 50-59 岁组,我们会发现接种疫苗的情况更好。 同样,如果我们查看 10-49,我们也会看到接种疫苗的票价更好。 矛盾的是,当查看组合时,未接种疫苗的结果似乎更糟。 通过这种方式,您可以使用数据为相反的论点提出理由。

数据有偏差

数据不能总是可信的。 即使在科学界,超过三分之一的接受调查的研究人员承认 “可疑的研究实践。”  另一个 研究欺诈侦探 说:“数据中的欺诈行为很可能比我们实际发现的要多得多——表格、折线图、排序数据[——]。 坐在厨房餐桌旁的任何人都可以在电子表格中输入一些数字,并制作出看起来令人信服的折线图。”

首先 例子 看起来有人这样做了。 我并不是说这是欺诈,但作为一项调查,它只是不会生成任何有助于做出明智决策的数据。 该调查似乎询问了受访者对加油站咖啡或其他相关时事的看法。 

  1. 高超 
  2. 非常好 

我裁剪了 Twitter 帖子以删除对有罪方的引用,但这是调查最终结果的实际完整图表。 像这样的调查并不少见。 显然,任何由响应产生的数据创建的图表都将显示有问题的咖啡不容错过。  

问题是,如果您接受了此调查,但没有找到符合您想法的答案,您将跳过该调查。 这可能是如何创建不可信数据的一个极端示例。 然而,糟糕的调查设计会导致更少的回应,而那些做出回应的人只有一个意见,这只是程度问题。 数据有偏差。

第二个数据偏差示例来自“最糟糕的 COVID 19 误导性图表设立的区域办事处外,我们在美国也开设了办事处,以便我们为当地客户提供更多的支持。“ 

同样,这是微妙的,并不完全明显。 条形图显示佛罗里达州一个县的 COVID-19 阳性病例百分比随时间平稳下降——几乎太平稳了。 您可以轻松得出病例正在下降的结论。 太好了,可视化准确地代表了数据。 问题出在数据上。 所以,这是一个更阴险的偏见,因为你看不到它。 它已融入数据。 您需要问的问题包括,谁在接受测试? 换句话说,分母是什么,或者我们正在查看的人口百分比。 假设是整个人口,或者至少是一个有代表性的样本。

然而,在此期间,在这个县,测试只对有限数量的人进行。 他们必须有类似 COVID 的症状,或者最近去过热点列表中的国家。 此外,混淆结果的事实是,每个阳性测试都被计算在内,每个阴性测试都被计算在内。 通常,当一个人检测呈阳性时,他们会在病毒走完后再次检测,结果呈阴性。 因此,从某种意义上说,对于每个正面案例,都有一个负面测试案例将其抵消。 绝大多数测试都是阴性的,每个人的阴性测试都被计算在内。 您可以看到数据是如何有偏差的,并且对于做出决策并不是特别有用。 

AI 输入和训练是有偏见的

人工智能至少有两种方式可以导致有偏见的结果:从有偏见的数据开始,或者使用有偏见的算法来处理有效数据。  

有偏输入

我们中的许多人的印象是,可以信任人工智能来处理数字、应用其算法并对数据进行可靠的分析。 人工智能只有经过训练才能变得聪明。 如果训练它的数据不完善,结果或结论也将不可信。 与上述调查偏差的情况类似,可以通过多种方式获取数据 在机器学习中:。  

  • 样本偏差——训练数据集不代表整个人群。
  • 排除偏差 – 有时看似异常值实际上是有效的,或者,我们在哪些地方划清界限(邮政编码、日期等)。
  • 测量偏差 – 惯例是始终从弯液面的中心和底部进行测量,例如,当测量容量瓶或试管中的液体时(汞除外)。
  • 回忆偏差——当研究依赖于参与者的记忆时。
  • 观察者偏见——科学家和所有人类一样,更倾向于看到他们期望看到的东西。
  • 性别歧视和种族主义偏见——性别或种族的比例可能过高或过低。  
  • 关联偏见——数据强化了刻板印象

为了让人工智能返回可靠的结果,它的训练数据需要代表现实世界。 正如我们在之前的博客文章中所讨论的,数据准备与任何其他数据项目一样至关重要。 不可靠的数据会给机器学习系统上一堂错误的课,并会导致错误的结论。 也就是说,“所有数据都是有偏见的。 这不是妄想症。 这是事实。” – Sanjiv M. Narayan 博士,斯坦福大学医学院。

使用有偏见的数据进行训练导致了许多值得注意的人工智能失败。 (例子 此处此处研究 此处..)

有偏算法

算法是一组接受输入并创建输出以回答业务问题的规则。 它们通常是定义明确的决策树。 算法感觉就像黑匣子。 没有人知道它们是如何工作的,通常,甚至是 使用它们的公司. 哦,它们通常是专有的。 它们神秘而复杂的性质是有偏见的算法如此阴险的原因之一。 . 

考虑医学、人力资源或金融领域的人工智能算法,其中考虑了种族因素。 如果种族是一个因素,那么算法就不可能是种族盲目的。 这不是理论上的。 在现实世界中使用人工智能发现了类似的问题 招聘背景:教育初创公司,需要第三方平台协助招聘, 拼车, 贷款申请s,并且 肾脏移植

底线是,如果你的数据或算法不好,比无用更糟糕,它们可能是危险的。 有这样一个“算法审计。” 目标是帮助组织识别与算法相关的潜在风险,因为它与公平、偏见和歧视有关。 别处, Facebook 正在使用 AI 来对抗 AI 中的偏见。

人们有偏见

我们在等式的两边都有人。 人们正在准备分析,人们正在接收信息。 有研究人员,也有读者。 在任何通信中,传输或接收都可能出现问题。

以天气为例。 “有可能下雨”是什么意思? 首先,气象学家说有可能下雨是什么意思? 根据美国政府 国家气象局,下雨的机会,或者他们所谓的降水概率 (PoP),是天气预报中最不为人所知的元素之一。 它确实有一个标准定义:“降水概率只是在指定时间段内给定预测区域的给定区域降水量增加 0.01 英寸 [原文如此] 的统计概率。” “给定区域”是预测区域,或 broad投掷区。 这意味着官方的降水概率取决于该地区某处会下雨的信心以及该地区将被弄湿的百分比。 换句话说,如果气象学家确信预测区域会下雨(置信度 = 100%),那么 PoP 代表该区域将下雨的部分。  

巴黎街; 下雨天,Gustave Caillebotte (1848-1894) 芝加哥艺术学院公共领域

下雨的机会取决于信心和面积。 我不知道。 我怀疑其他人也不知道。 大约 75% 的人口不准确理解 PoP 是如何计算的,或者它的含义是什么。 那么,我们是否被愚弄了,或者,这是一个认知问题。 我们称之为降水感知。 我们责怪天气预报员吗? 公平地说,有一些 混乱 在天气预报员中也是如此。 在一个 ,接受调查的气象学家中有 43% 表示 PoP 的定义几乎没有一致性。

分析本身是有偏见的

在五个影响因素中,分析本身可能是最令人惊讶的。 在导致发表评论论文的科学研究中,通常假设一个理论,定义测试假设的方法,收集数据,然后分析数据。 已完成的分析类型及其完成方式在如何影响结论方面被低估了。 在一个 今年早些时候(2022 年 XNUMX 月)发表在《国际癌症杂志》上,作者评估了随机对照试验和回顾性观察研究的结果。 他们的研究结果得出结论,

通过在比较有效性研究中改变分析选择,我们产生了相反的结果。 我们的结果表明,一些回顾性观察研究可能会发现一种治疗方法可以改善患者的预后,而另一项类似的研究可能会发现它没有,这只是基于分析选择。

过去,在阅读科学期刊文章时,如果您和我一样,您可能会认为结果或结论都是关于数据的。 现在看来,结果,或者说最初的假设是被证实还是被反驳,也可能取决于分析的方法。

另一个 根据一项研究, 发现了类似的结果。 文章, 许多分析师,一个数据集:使分析选择的变化如何影响结果变得透明, 描述了他们如何将相同的数据集提供给 29 个不同的团队进行分析。 数据分析通常被视为一个严格的、定义明确的过程,它会导致一个单一的结论。  

尽管有方法学家的抗议,但很容易忽视这样一个事实,即结果可能取决于所选择的分析策略,而这些策略本身就充满了理论、假设和选择点。 在许多情况下,有许多合理(和许多不合理)的方法来评估与研究问题相关的数据。

研究人员对数据进行了众包分析,得出的结论是,所有研究都包括主观决定——包括使用哪种类型的分析——这可能会影响研究的最终结果。

另一个人的推荐 研究员 谁分析了上述研究,在使用单篇论文进行决策或得出结论时要谨慎。

解决分析中的偏见

这只是一个警示故事。 知识可以保护我们免受诈骗。 扫描仪可能用来欺骗我们的方法越多,我们就越不可能被扒手的误导或庞氏骗局的流畅谈话所吸引。 因此,理解和识别影响我们分析的潜在偏见也是如此。 如果我们意识到潜在的影响,我们或许能够更好地呈现故事并最终做出更好的决策。