分析の嘘

by 2022 年 8 月 31 日BI /分析0コメント

分析の嘘

分析のバイアス

 

マーク・トウェインは次のようなことを論争の的に言いました。 分析論に設立された地域オフィスに加えて、さらにローカルカスタマーサポートを提供できるようになります。」 

私たちは、分析が有用で実用的な洞察を提供してくれることを当然のことと考えています。 私たちがしばしば気付いていないのは、最も洗練されたソフトウェアやシステムでさえ、私たち自身の偏見や他人の偏見が、私たちが与える答えにどのように影響するかということです. 不正に操作されることもありますが、より一般的には、分析に忍び寄る微妙で無意識の偏見である可能性があります。 偏った分析の背後にある動機はさまざまです。 私たちが科学に期待する公平な結果は、1) データの提示方法の微妙な選択、2) 一貫性のない、または代表的でないデータ、3) AI システムのトレーニング方法、4) 研究者や他の研究者の無知、無能さによって影響を受けることがあります。ストーリーを語るために、5)分析自体。    

プレゼンテーションは偏っている

嘘の中には、他の嘘よりも見つけやすいものがあります。 何を探すべきかを知っていれば、潜在的な可能性をより簡単に検出できます 誤解を招くグラフやチャート。 

少なくともあります。 誤解を招くようにデータを表示する XNUMX つの方法: 1) 限られたデータ セットを表示する、2)。 無関係な相関関係を表示する、3) データを不正確に表示する、4) データを型にはまらない方法で表示する、または 5)。 データを単純化しすぎて表示します。

限られたデータセットを表示する

データを制限したり、データのランダムではないセクションを手動で選択したりすると、全体像と一致しないストーリーが語られることがよくあります。 悪いサンプリング、つまりチェリー ピッキングとは、アナリストが代表的ではないサンプルを使用してより大きなグループを表す場合です。 

月2020で、 ジョージア州公衆衛生局 は、毎日のステータス レポートの一部としてこのチャートを公開しました。 実際には、答えよりも多くの質問が発生します。  

欠けているものの 0 つはコンテキストです。 たとえば、各年齢グループの人口の割合を知ることは役に立ちます。 シンプルに見える円グラフのもう 17 つの問題は、年齢層が不均一であることです。 18-18 は 59 年、42-60 は 40、18+ はオープンエンドですが、約 59 年です。 このグラフだけを考えると、大多数の症例は 60 ~ XNUMX 歳の年齢層にあるという結論になります。 XNUMX 歳以上の年齢層は、COVID の症例による深刻な影響を受けていないようです。 しかし、これがすべてではありません。

比較のために、 CDCのウェブサイト は、各年齢層に含まれる米国人口の割合に関する追加データを使用して、COVID 症例を年齢層別にグラフ化したものです。  

これの方が良い。 より多くのコンテキストがあります。 18 ~ 29 歳、30 ~ 39 歳、40 ~ 49 歳の年齢層はすべて、母集団の年齢層の割合よりも高い割合の症例を持っていることがわかります。 まだ不均一な年齢層があります。 16 ~ 17 歳が別の年齢層になっているのはなぜですか? それでも、これがすべてではありませんが、専門家はコラムを書き、予測を行い、これよりも短い指示を出しています。 明らかに、COVID では、年齢に加えて、陽性例としてカウントされることに影響を与える多くの変数があります: ワクチン接種の状態、検査の利用可能性、検査の回数、併存症、およびその他多数。 ケースの数自体は、不完全な全体像を提供します。 ほとんどの専門家は、COVID が各年齢層にどのように影響するかを調べるために、死亡者数、人口 100,000 万人あたりの死亡率、または致死率も調べます。

無関係な相関関係を表示

明らかに、ある 強い相関関係 米国の科学、宇宙、技術への支出と、首つり、絞殺、窒息による自殺の数。 相関は 99.79% で、ほぼ完全に一致しています。  

しかし、これらが何らかの形で関連している、または一方が他方を引き起こしていると誰が主張するでしょうか? 他にもそれほど極端ではない例がありますが、それほど偽りではありません。 Scripps National Spelling Bee の受賞単語の文字数と毒グモによる死亡者数との間には、同様の強い相関関係があります。 一致? あなたが決める。

誤解を招きにくいこのデータをグラフ化する別の方法は、両方の Y 軸にゼロを含めることです。

データを不正確に表示する

データを正しく表示しない方法、米国ジョージア州は、確認された COVID-5 症例数が最も多い上位 19 つの郡を発表しました。

合法に見えますよね? 確認されたCOVID-19の症例数は明らかに減少傾向にあります。 X軸は読めますか? X 軸は時間を表します。 通常、日付は左から右に増加します。 ここでは、X 軸に少しのタイム トラベルが表示されます。 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

待って? 何? X 軸は時系列でソートされていません。 そのため、トレンドがいかに素晴らしいものに見えても、結論を出すことはできません. 日付が順序付けられている場合、症例数のバーは、どのような傾向よりも鋸歯状のパターンを示しています。

ここでの簡単な修正は、カレンダーのように日付を並べ替えることです。

慣例にとらわれずにデータを表示する

私たちは皆忙しいです。 私たちの脳は、私たちの世界で一貫している仮定に基づいて迅速な判断を下すことを教えてくれました。 たとえば、これまでに見たすべてのグラフは、x 軸と y 軸がゼロまたは最小値で一致していることを示しています。 このチャートを簡単に見て、フロリダ州の影響についてどのような結論を引き出すことができますか? 「根拠法を守れ。」? お恥ずかしい話ですが、最初はこのグラフにだまされました。 グラフィックの中央にあるテキストと矢印に目を引きます。 このグラフでは下が上です。 嘘ではないかもしれません。データはそこにあります。 でも、騙すつもりだと思わざるを得ない。 まだ見ていない場合は、y 軸のゼロが一番上にあります。 したがって、データが下降傾向にあるということは、死亡者が増えることを意味します。 このグラフは、銃器を使用した殺人の数を示しています。 増加した 2005 年以降、トレンドの進行によって示される ダウン.

単純化しすぎたデータを表示する

アナリストがシンプソンのパラドックスを利用する場合、データの過度の単純化の一例を見ることができます。 これは、集計されたデータがサブセットに分割された場合とは異なる結論を示しているように見える場合に発生する現象です。 このトラップは、高レベルの集計パーセンテージを見ると陥りやすいです。 職場でのシンプソンのパラドックスの最も明確な例の XNUMX つは、 打率.  

ここでは、1995 年と 1996 年のシーズンで、デレク ジーターの全体的な打率がデビッド ジャスティスよりも高いことがわかります。 パラドックスは、ジャスティスがその両方の年の打率でジーターを破ったことに気付いたときに起こります。 注意深く見ると、4 年のジーターの打席数 (分母) が約 1996 倍多く、007 年の平均打数が 1996 少ないことに気付くと、それは理にかなっています。 10 年の平均は 003 高い。

プレゼンテーションは簡単に見えますが、シンプソンのパラドックスは、故意または無意識のうちに、誤った結論につながっています. 最近、ニュースやソーシャル メディアで、ワクチンや COVID による死亡率に関連するシンプソンのパラドックスの例が見られます。 XNUMX チャート 10 歳から 59 歳の人の死亡率を、ワクチンを接種した場合と受けていない場合で比較した折れ線グラフです。 このグラフは、ワクチン接種を受けていない人は一貫して死亡率が低いことを示しています。 何が起きてる?  

この問題は、打率で見られる問題と似ています。 この場合の分母は、各年齢グループの個人の数です。 グラフは、異なる結果を持つグループを結合します。 50 ~ 59 歳の高齢者グループを個別に見ると、ワクチンを接種した人の方がうまくいくことがわかります。 同様に、10-49 を見ると、ワクチンを接種した方がうまくいくことがわかります。 逆説的に、組み合わせたセットを見ると、ワクチン接種を受けていない方がより悪い結果をもたらすように見えます. このようにして、データを使用して反対の主張を主張することができます。

データに偏りがある

データは常に信頼できるとは限りません。 科学界でさえ、調査対象の研究者の XNUMX 分の XNUMX 以上が、 「疑わしい研究慣行」  別の 調査詐欺捜査官 「データには、表、折れ線グラフ、配列データ [- 私たちが実際に発見しているよりも] より多くの不正が含まれている可能性が非常に高い. キッチンのテーブルに座っている人なら誰でも、スプレッドシートに数字を入力して、説得力のある折れ線グラフを作成できます。」

この最初の 誰かがまさにそれをしたようです。 これが詐欺だと言っているわけではありませんが、調査として、十分な情報に基づいた決定に役立つデータを生成していません。 調査では、回答者にガソリンスタンドのコーヒーやその他の関連する現在の出来事についての意見を尋ねたようです.. 

  1. 素晴らしい 
  2. 素晴らしい
  3. とても良い 

有罪の当事者への言及を削除するために Twitter の投稿をトリミングしましたが、これは調査の最終結果の実際の全体図です。 このような調査は珍しくありません。 明らかに、回答から得られたデータから作成されたグラフは、問題のコーヒーが見逃せないことを示しています。  

問題は、このアンケートを受け取って自分の考えに合う回答が見つからなかった場合、アンケートを飛ばしてしまうことです。 これは、信頼できないデータが作成される方法の極端な例かもしれません。 ただし、調査のデザインが悪いと、回答が少なくなる可能性があり、回答した人の意見は XNUMX つしかありません。それは程度の問題です。 データは偏っています。

この XNUMX 番目のデータ バイアスの例は、「最悪の COVID 19 誤解を招くグラフに設立された地域オフィスに加えて、さらにローカルカスタマーサポートを提供できるようになります。」 

繰り返しますが、これは微妙であり、完全に明白ではありません。 棒グラフは、フロリダ州のある郡で時間の経過とともに COVID-19 の陽性症例の割合が滑らかに (ほぼ滑らかに) 減少していることを示しています。 症例が減少しているという結論を簡単に導き出すことができます。 これは素晴らしいことです。ビジュアライゼーションはデータを正確に表しています。 問題はデータにあります。 つまり、目に見えないので、より陰湿なバイアスです。 データに焼き付けられています。 あなたが尋ねる必要がある質問には、誰がテストされているのかが含まれます. 言い換えれば、分母、つまりパーセンテージを見ている人口は何ですか。 仮定は、それが母集団全体、または少なくとも代表的なサンプルであるということです。

しかし、この時期、この郡では限られた人しか検査を受けられませんでした。 彼らはCOVIDのような症状を持っているか、ホットスポットのリストにある国に最近旅行した必要がありました. さらに、結果を混乱させるのは、各陽性テストがカウントされ、各陰性テストがカウントされたという事実です。 通常、個人が陽性であるとテストされた場合、ウイルスがそのコースを実行したときに再度テストし、陰性であるとテストします. したがって、ある意味では、それぞれの肯定的なケースに対して、それを相殺する否定的なテスト ケースがあります。 テストの大部分は陰性であり、各個人の陰性テストがカウントされました。 データに偏りがあり、意思決定に特に役立たないことがわかります。 

AI の入力とトレーニングに偏りがある

AI が偏った結果につながる可能性がある少なくとも XNUMX つの方法があります。偏ったデータから開始する方法と、偏ったアルゴリズムを使用して有効なデータを処理する方法です。  

バイアス入力

私たちの多くは、AI が数値を処理し、そのアルゴリズムを適用し、データの信頼できる分析を吐き出すと信頼できるという印象を受けています。 人工知能は、訓練された分だけ賢くなります。 トレーニング対象のデータが不完全な場合、結果や結論も信頼できなくなります。 上記の調査バイアスの場合と同様に、データを分析する方法はいくつかあります。 偏った 機械学習:.  

  • サンプル バイアス – トレーニング データセットは母集団全体を代表するものではありません。
  • 除外バイアス – 外れ値のように見えるものが実際に有効である場合や、何を含めるべきか (郵便番号、日付など) に線を引く場合があります。
  • 測定バイアス – 規則では、たとえば、メスフラスコまたは試験管 (水銀を除く) 内の液体を測定する場合、常にメニスカスの中心と底から測定します。
  • リコール バイアス – 研究が参加者の記憶に依存する場合。
  • 観察者バイアス – 科学者は、すべての人間と同様に、自分が期待するものを見る傾向があります。
  • 性差別的および人種差別的偏見 – 性別または人種は過大または過小評価される可能性があります。  
  • アソシエーション バイアス – データはステレオタイプを強化します

AI が信頼できる結果を返すには、そのトレーニング データが現実世界を表す必要があります。 以前のブログ記事で説明したように、データの準備は重要であり、他のデータ プロジェクトと同様です。 信頼できないデータは、機械学習システムに間違った教訓を教え、間違った結論を導く可能性があります。 つまり、「すべてのデータには偏りがあります。 これはパラノイアではありません。 これは事実です。」 – サンジブ・M・ナラヤン博士、スタンフォード大学医学部。

偏ったデータをトレーニングに使用すると、多くの注目すべき AI の失敗につながります。 (例 こちら & こちら、研究 こちら..)

偏ったアルゴリズム

アルゴリズムは、入力を受け入れ、ビジネス上の問題に答える出力を作成する一連のルールです。 多くの場合、明確に定義された決定木です。 アルゴリズムはブラックボックスのように感じます。 それらがどのように機能するかは誰にもわかりません。 それらを使用する企業. ああ、そしてそれらはしばしば独占的です。 それらの神秘的で複雑な性質は、偏ったアルゴリズムが非常に陰湿である理由の XNUMX つです。 . 

人種を考慮した医療、人事、または金融の AI アルゴリズムを検討してください。 人種が要因である場合、アルゴリズムを人種的に盲目にすることはできません。 これは理論的ではありません。 このような問題は、AI を使用して現実の世界で発見されています。 雇用, 相乗り, ローン申し込みsであり、 腎臓移植

肝心なのは、データやアルゴリズムが悪い場合、役に立たないよりも悪い場合、それらは危険である可能性があるということです. 「」というものがあります。アルゴリズム監査」 目標は、公平性、偏見、差別に関連するアルゴリズムに関連する潜在的なリスクを組織が特定できるようにすることです。 他の場所では、 Facebook AI の偏見と戦うために AI を使用しています。

人々は偏っている

方程式の両側に人々がいます。 人々は分析の準備をしており、情報を受け取っています。 研究者がいて、読者がいます。 どのような通信でも、送信または受信に問題が発生する可能性があります。

たとえば、天気を考えてみましょう。 「雨が降る可能性」とは? まず、気象学者が雨の可能性があると言うとき、何を意味するのでしょうか? アメリカ政府によると 国立測候所、降水確率、または降水確率 (PoP) と呼ばれるものは、天気予報で最も理解されていない要素の 0.01 つです。 それには標準的な定義があります。「降水確率は、指定された期間に、指定された予測地域の指定された地域で [原文のまま] XNUMX インチ [原文のまま] 降水する単なる統計的確率です。」 「所定の面積」は予測面積、または broadキャストエリア。 つまり、公式の降水確率は、その地域のどこかで雨が降るという信頼度と、その地域が濡れる割合に依存するということです。 つまり、気象学者が予測エリアで雨が降ると確信している場合 (信頼度 = 100%)、PoP は雨が降るエリアの部分を表します。  

パリ通り; 雨の日,ギュスターヴ・カイユボット (1848-1894) シカゴ美術館パブリックドメイン

降水確率は、信頼度と地域の両方に依存します。 私は知りませんでした。 他の人もそれを知らないと思います。 人口の約 75% は、PoP の計算方法や、PoP が何を表しているのかを正確に理解していません。 それで、私たちはだまされているのでしょうか、それともこれは認識の問題ですか。 それを降水知覚と呼びましょう。 気象予報士のせいですか? 公平を期すために、いくつかあります 混乱 気象予報士の間でも。 一つで 調査、調査対象の気象学者の 43% が、PoP の定義にはほとんど一貫性がないと述べています。

分析自体に偏りがある

XNUMX つの影響要因のうち、分析自体が最も驚くべきものかもしれません。 査読済みの論文が出版される結果となる科学研究では、通常、理論の仮説が立てられ、仮説を検証するための方法が定義され、データが収集され、データが分析されます。 行われる分析の種類とその方法は、結論にどのように影響するかという点で過小評価されています。 で 今年初め(2022 年 XNUMX 月)に International Journal of Cancer に掲載された論文の著者らは、無作為化比較試験と後ろ向き観察研究の結果を評価しました。 彼らの調査結果は次のように結論付けました。

比較有効性研究で分析の選択肢を変えることで、反対の結果を生み出しました。 私たちの結果は、いくつかのレトロスペクティブな観察研究では、治療が患者の転帰を改善することを発見する可能性があることを示唆していますが、別の同様の研究では、単純に分析的な選択に基づいて、そうではないことが判明する可能性があります.

過去に科学雑誌の記事を読んだとき、私のように、結果や結論はすべてデータに関するものだと思っていたかもしれません。 さて、結果、または最初の仮説が確認されるか反証されるかは、分析方法にも依存する可能性があるようです。

別の 研究 同様の結果が見つかりました。 記事、 多くのアナリスト、XNUMX つのデータ セット: 分析の選択のバリエーションが結果に与える影響を透明にする は、同じデータセットを 29 の異なるチームに分析のために与えた方法を説明しています。 データ分析は、多くの場合、単一の結論につながる厳密で明確に定義されたプロセスと見なされます。  

方法論者の指摘にもかかわらず、結果は選択された分析戦略に依存する可能性があるという事実を見落としがちです。分析戦略自体には、理論、仮定、および選択ポイントが染み込んでいます。 多くの場合、研究課題に関連するデータを評価するための多くの合理的な (そして多くの不合理な) アプローチがあります。

研究者はデータの分析をクラウドソーシングで行い、すべての研究には、研究の最終的な結果に影響を与える可能性のある主観的な決定が含まれているという結論に達しました.

別のおすすめ 研究者 上記の研究を分析した著者は、決定を下したり結論を導き出す際に単一の論文を使用する場合は注意が必要です。

分析におけるバイアスへの対処

これは単に警告的な話であることを意味しています。 知識は私たちを詐欺から守ってくれます。 スキャナーが私たちをだますために使用する可能性のある方法を認識すればするほど、たとえば、スリの誤った指示やポンジープレイのスムーズな話に巻き込まれる可能性は低くなります. つまり、分析に影響を与える潜在的なバイアスを理解し、認識することです。 潜在的な影響を認識していれば、ストーリーをより適切に提示し、最終的により適切な決定を下すことができるかもしれません.  

BI /分析未分類
Microsoft Excel がナンバーワンの分析ツールである理由
なぜ Excel がナンバーワンの分析ツールなのでしょうか?

なぜ Excel がナンバーワンの分析ツールなのでしょうか?

  安くて簡単です。 Microsoft Excel スプレッドシート ソフトウェアは、ビジネス ユーザーのコンピュータにすでにインストールされている可能性があります。そして今日の多くのユーザーは、高校時代、あるいはそれ以前から Microsoft Office ソフトウェアに触れてきました。についてのこの不可解な反応は...

続きを読む

BI /分析未分類
ニューヨークスタイル vs. シカゴスタイルピザ: おいしい論争

ニューヨークスタイル vs. シカゴスタイルピザ: おいしい論争

私たちの欲求を満たすとき、熱々のピザの喜びに匹敵するものはほとんどありません。ニューヨーク風ピザとシカゴ風ピザの論争は、何十年にもわたって情熱的な議論を引き起こしてきました。それぞれのスタイルには独自の特徴があり、熱心なファンがいます。

続きを読む

BI /分析コグノス アナリティクス
Cognos クエリスタジオ
ユーザーは Query Studio を望んでいます

ユーザーは Query Studio を望んでいます

IBM Cognos Analytics 12 のリリースにより、長い間発表されていた Query Studio と Analysis Studio の非推奨が、最終的にこれらのスタジオを除いたバージョンの Cognos Analytics で提供されました。これは、この分野に携わるほとんどの人にとって驚くべきことではありませんが、...

続きを読む

BI /分析未分類
テイラー・スウィフト効果は本当ですか?

テイラー・スウィフト効果は本当ですか?

一部の批評家は、彼女がスーパーボウルのチケット価格をつり上げているのではないかと示唆している 今週末のスーパーボウルは、テレビ史上最も視聴率の高いイベントのトップ3に入ることが予想されている。おそらく、昨年の記録を樹立した数字よりも多く、おそらく 1969 年の月よりも多いでしょう...

続きを読む