Analytická lež

by 31. 2022BI/Analytika0 komentáře

Analytická lež

Předpojatost analýzy

 

Mark Twain diskutabilně řekl něco jako: „Existují tři druhy lží: lži, zatracené lži a analytika. " 

Považujeme za samozřejmé, že nám analýzy poskytují užitečné a použitelné informace. Často si neuvědomujeme, jak naše vlastní předsudky a předsudky ostatních ovlivňují odpovědi, které nám dává i ten nejsofistikovanější software a systémy. Někdy s námi může být manipulováno nepoctivě, ale častěji to mohou být jemné a nevědomé předsudky, které se vkrádají do našich analýz. Motivace za zkreslenou analýzou je mnohočetná. Někdy jsou nestranné výsledky, které od vědy očekáváme, ovlivněny 1) jemnými volbami v tom, jak jsou data prezentována, 2) nekonzistentními nebo nereprezentativními daty, 3) jak jsou systémy umělé inteligence trénovány, 4) neznalostí, neschopností výzkumníků nebo jiných, kteří se snaží vyprávět příběh, 5) samotnou analýzu.    

Prezentace je neobjektivní

Některé lži jsou snadněji rozpoznatelné než jiné. Když víte, co hledat, můžete to snadněji odhalit zavádějící grafy a tabulky. 

Existuje přinejmenším pět způsobů, jak zavádějícím způsobem zobrazit data: 1) Zobrazit omezený soubor dat, 2). Zobrazit nesouvisející korelace, 3) zobrazit data nepřesně, 4) zobrazit data nekonvenčně nebo 5). Zobrazit data příliš zjednodušená.

Zobrazit omezený soubor dat

Omezení dat nebo ruční výběr nenáhodné části dat může často vyprávět příběh, který není v souladu s celkovým obrazem. Špatné vzorkování nebo výběr třešní je, když analytik používá nereprezentativní vzorek k reprezentaci větší skupiny. 

V březnu 2020, Gruzínské ministerstvo veřejného zdraví zveřejnil tento graf jako součást své denní zprávy o stavu. Ve skutečnosti vyvolává více otázek, než odpovídá.  

Jedna z věcí, která chybí, je kontext. Například by bylo užitečné vědět, jaké procento populace je pro každou věkovou skupinu. Dalším problémem jednoduše vypadajícího koláčového grafu jsou nerovnoměrné věkové skupiny. 0-17 má 18 let, 18-59 má 42, 60+ je otevřený konec, ale má kolem 40 let. Závěr, s ohledem na tuto tabulku, je, že většina případů je ve věkové skupině 18-59 let. Zdá se, že věková skupina 60+ je méně vážně postižena případy COVID. Ale to není celý příběh.

Pro srovnání, tento odlišný soubor dat na webové stránky CDC grafy případů COVID podle věkových skupin s dalšími údaji o procentu populace USA v každém věkovém rozmezí.  

Tohle je lepší. Máme více souvislostí. Vidíme, že věkové skupiny 18-29, 30-39, 40-49 mají všechny vyšší procento případů než procento věkové skupiny v populaci. Stále existují nerovnoměrné věkové skupiny. Proč je 16-17 samostatná věková skupina? Stále to není celý příběh, ale učenci psali sloupky, dělali předpovědi a mandáty na méně než toto. Je zřejmé, že u COVID existuje kromě věku mnoho proměnných, které ovlivňují, že se počítá jako pozitivní případ: stav očkování, dostupnost testů, počet testů, komorbidity a mnoho dalších. Počet případů sám o sobě poskytuje neúplný obrázek. Většina odborníků se také dívá na počet úmrtí nebo procenta úmrtí na 100,000 XNUMX obyvatel nebo na smrtelné případy, aby zjistili, jak COVID ovlivňuje jednotlivé věkové skupiny.

Zobrazit nesouvisející korelace

Je zřejmé, že existuje silná korelace mezi americkými výdaji na vědu, vesmír a technologii a počtem sebevražd oběšením, uškrcení a udušení. Korelace je 99.79 %, téměř dokonalá shoda.  

Kdo by však tvrdil, že spolu nějak souvisí, nebo že jedno způsobuje druhé? Existují další méně extrémní příklady, ale neméně falešné. Podobně silná korelace existuje mezi písmeny ve vítězném slově Scripps National Spelling Bee a počtem lidí zabitých jedovatými pavouky. Náhoda? Vy rozhodnete.

Dalším způsobem, jak zmapovat tato data, který může být méně zavádějící, by bylo zahrnout nulu na obě osy Y.

Zobrazovat data nepřesně

od Jak špatně zobrazovat data, americký stát Georgia představil Top 5 zemí s největším počtem potvrzených případů COVID-19.

Vypadá to legálně, že? Je zřejmé, že počet potvrzených případů COVID-19 klesá. Dokážete přečíst osu X? Osa X představuje čas. Data se obvykle zvětšují zleva doprava. Zde vidíme malé cestování časem na ose X: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

Počkejte? Co? Osa X není řazena chronologicky. Takže, jakkoli může trend vypadat hezky, nemůžeme dělat žádné závěry. Pokud jsou data seřazena, pruhy pro počet případů ukazují spíše pilový vzor než jakýkoli druh trendu.

Snadná oprava je seřadit data tak, jak to dělá kalendář.

Zobrazujte data netradičně

Všichni jsme zaneprázdněni. Náš mozek nás naučil činit rychlé úsudky na základě předpokladů, které byly v našem světě konzistentní. Například každý graf, který jsem kdy viděl, ukazuje, že osy x a y se setkávají na nulových nebo nejnižších hodnotách. Když se krátce podíváte na tento graf, jaké závěry můžete vyvodit o vlivu Floridy "Drž se svého základního zákona."“? Stydím se to přiznat, ale tento graf mě zpočátku oklamal. Vaše oko pohodlně upoutá text a šipka uprostřed grafiky. Dolů je v tomto grafu nahoru. Nemusí to být lež – data jsou tam v pořádku. Ale musím si myslet, že to má klamat. Pokud jste to ještě neviděli, nula na ose y je nahoře. Takže jak data klesají, znamená to více úmrtí. Tento graf ukazuje počet vražd za použití střelných zbraní vzrostl po roce 2005, což naznačuje pokračující trend dolů.

Zobrazit data příliš zjednodušená

Jeden příklad přílišného zjednodušení dat lze vidět, když analytici využívají Simpsonův paradox. K tomuto jevu dochází, když se zdá, že agregovaná data ukazují jiný závěr, než když jsou rozdělena do podmnožin. Do této pasti se snadno dostanete, když se podíváte na agregovaná procenta na vysoké úrovni. Jedna z nejjasnějších ilustrací Simpsonova paradoxu v práci souvisí s pálkařské průměry.  

Zde vidíme, že Derek Jeter má v sezónách 1995 a 1996 celkově vyšší průměr pálkování než David Justice. Paradox nastává, když si uvědomíme, že Justice v obou těchto letech porazila Jetera v odpalovém průměru. Když se podíváte pozorně, dává to smysl, když si uvědomíte, že Jeter měl v roce 4 zhruba 1996x více netopýrů (jmenovatel) při nižším průměru o 007 v roce 1996. Zatímco Justice měla zhruba desetinásobek počtu netopýrů pouze . 10 vyšší průměr v roce 003.

Prezentace se zdá být přímočará, ale Simpsonův paradox, vědomě či nevědomky, vedl k nesprávným závěrům. Nedávno se ve zprávách a na sociálních sítích objevily příklady Simpsonova paradoxu související s vakcínami a úmrtností na COVID. Jeden grafu ukazuje spojnicový graf srovnávající úmrtnost mezi očkovanými a neočkovanými lidmi ve věku 10-59 let. Graf ukazuje, že neočkovaní mají trvale nižší úmrtnost. Co se tam děje?  

Problém je podobný tomu, který vidíme u průměrů odpalů. Jmenovatelem je v tomto případě počet jedinců v každé věkové skupině. Graf kombinuje skupiny, které mají různé výsledky. Podíváme-li se zvlášť na starší věkovou skupinu 50-59 let, vidíme, že očkovaní jsou na tom lépe. Stejně tak, když se podíváme na 10-49, také vidíme, že očkovaní se mají lépe. Paradoxně při pohledu na kombinovanou sestavu se zdá, že neočkovaní mají horší výsledek. Tímto způsobem můžete pomocí dat argumentovat protichůdnými argumenty.

Data jsou zkreslená

Data nelze vždy věřit. Dokonce i ve vědecké komunitě se více než třetina dotázaných výzkumníků přiznala "sporné výzkumné postupy."  Další výzkumný detektiv podvodů říká: „V datech – tabulkách, spojnicových grafech, sekvenčních datech je velmi pravděpodobně mnohem více podvodů, než ve skutečnosti zjišťujeme. Každý, kdo sedí u svého kuchyňského stolu, může dát pár čísel do tabulky a vytvořit spojnicový graf, který vypadá přesvědčivě.“

To první příklad vypadá to, že to někdo udělal. Neříkám, že je to podvod, ale jako průzkum to prostě negeneruje žádná data, která přispívají k informovanému rozhodnutí. Zdá se, že průzkum se dotazoval respondentů na jejich názor na kávu z čerpací stanice nebo jinou relevantní aktuální událost. 

  1. Nádherný 
  2. Velký
  3. Velmi dobrý 

Ořízl jsem příspěvek na Twitteru, abych odstranil odkazy na viníka, ale toto je skutečná celá tabulka konečných výsledků průzkumu. Takové průzkumy nejsou neobvyklé. Je zřejmé, že jakýkoli graf vytvořený z dat vyplývajících z odpovědí ukáže, že dotyčná káva nesmí chybět.  

Problém je v tom, že pokud byste dostali tento průzkum a nenašli byste odpověď, která by odpovídala vašemu myšlení, průzkum byste vynechali. To může být extrémní příklad toho, jak lze vytvořit nedůvěryhodná data. Špatný design průzkumu však může vést k menšímu počtu odpovědí a ti, kteří odpovídají, mají pouze jeden názor, je to jen otázka míry. Data jsou zkreslená.

Tento druhý příklad zkreslení dat pochází ze souborů „Nejhorší zavádějící grafy COVID 19. " 

Opět je to jemné a ne zcela zřejmé. Sloupcový graf ukazuje hladký – až příliš hladký – pokles procenta pozitivních případů COVID-19 v průběhu času pro okres na Floridě. Snadno byste mohli vyvodit závěr, že případů ubývá. To je skvělé, vizualizace přesně reprezentuje data. Problém je v datech. Takže je to zákeřnější zkreslení, protože to nevidíte. Je to zapečeno v datech. Otázky, které si musíte položit, zahrnují, kdo je testován? Jinými slovy, jaký je jmenovatel nebo populace, na kterou se díváme v procentech. Předpokladem je, že se jedná o celou populaci, nebo alespoň o reprezentativní vzorek.

Během tohoto období však byly v tomto kraji testy prováděny pouze omezenému počtu lidí. Museli mít příznaky podobné COVIDu nebo nedávno cestovali do země na seznamu horkých míst. Výsledky navíc zkresluje skutečnost, že každý pozitivní test byl započítán a každý negativní test byl započítán. Typicky, když byl jednotlivec testován pozitivně, testoval by znovu, když virus proběhl, a test byl negativní. Takže v jistém smyslu pro každý pozitivní případ existuje negativní testovací případ, který jej zruší. Drtivá většina testů je negativní a negativní testy každého jedince byly započítány. Můžete vidět, jak jsou data zkreslená a nejsou nijak zvlášť užitečná pro rozhodování. 

Vstup a školení AI jsou zkreslené

Existují přinejmenším dva způsoby, jak může umělá inteligence vést ke zkresleným výsledkům: počínaje zkreslenými daty nebo pomocí zkreslených algoritmů ke zpracování platných dat.  

Předpojatý vstup

Mnoho z nás má dojem, že umělé inteligenci lze důvěřovat, že dokáže zpracovat čísla, použít své algoritmy a vychrlit spolehlivou analýzu dat. Umělá inteligence může být jen tak chytrá, jak je trénovaná. Pokud jsou data, na kterých je trénováno, nedokonalá, nebude možné věřit ani výsledkům nebo závěrům. Podobně jako ve výše uvedeném případě zkreslení průzkumu existuje řada způsobů, jakými mohou být data zaujatý ve strojovém učení:.  

  • Zkreslení vzorku – trénovací datový soubor není reprezentativní pro celou populaci.
  • Předpojatost vyloučení – někdy je skutečně platné to, co se jeví jako odlehlé hodnoty, nebo tam, kde děláme čáru mezi tím, co zahrnout (PSČ, data atd.).
  • Zkreslení měření – konvencí je vždy měřit od středu a spodku menisku, například při měření kapalin v odměrných baňkách nebo zkumavkách (kromě rtuti).
  • Recall bias – když výzkum závisí na paměti účastníků.
  • Zaujatost pozorovatele – vědci, stejně jako všichni lidé, mají větší sklon vidět to, co očekávají.
  • Sexistické a rasistické předsudky – pohlaví nebo rasa mohou být nadměrně nebo nedostatečně zastoupeny.  
  • Asociační zkreslení – data posilují stereotypy

Aby umělá inteligence přinášela spolehlivé výsledky, její tréninková data musí reprezentovat skutečný svět. Jak jsme diskutovali v předchozím článku na blogu, příprava dat je kritická a jako každý jiný datový projekt. Nespolehlivá data mohou naučit systémy strojového učení špatnou lekci a povedou k nesprávnému závěru. To znamená: „Všechna data jsou zkreslená. To není paranoia. Tohle je fakt.” – Dr. Sanjiv M. Narayan, Lékařská fakulta Stanfordské univerzity.

Použití zkreslených dat pro trénování vedlo k řadě pozoruhodných selhání AI. (Příklady zde a zde, výzkum zde..)

Předpojaté algoritmy

Algoritmus je sada pravidel, která přijímají vstup a vytváří výstup pro řešení obchodního problému. Často jsou to dobře definované rozhodovací stromy. Algoritmy působí jako černé skříňky. Nikdo si často není jistý, jak fungují, dokonce ani ne společnosti, které je používají. Jo a často jsou majetnické. Jejich tajemná a složitá povaha je jedním z důvodů, proč jsou zkreslené algoritmy tak záludné. . 

Zvažte algoritmy umělé inteligence v medicíně, HR nebo financích, které berou v úvahu rasu. Pokud je rasa faktorem, algoritmus nemůže být rasově slepý. To není teoretické. Problémy jako tyto byly objeveny v reálném světě pomocí AI pronájem, podíl na jízdě, žádost o půjčkus, a transplantace ledvin

Pointa je, že pokud jsou vaše data nebo algoritmy špatné, horší než zbytečné, mohou být nebezpečné. Existuje něco jako „algoritmický audit.“ Cílem je pomoci organizacím identifikovat potenciální rizika související s algoritmem, pokud jde o spravedlnost, zaujatost a diskriminaci. Někde jinde, facebook používá AI k boji proti zaujatosti v AI.

Lidé jsou zaujatí

Máme lidi na obou stranách rovnice. Lidé připravují analýzu a lidé dostávají informace. Jsou výzkumníci a jsou čtenáři. Při jakékoli komunikaci mohou nastat problémy s vysíláním nebo příjmem.

Vezměte si například počasí. Co znamená „možnost deště“? Za prvé, co míní meteorologové, když říkají, že existuje možnost deště? Podle americké vlády Národní meteorologická služba, pravděpodobnost deště, nebo to, čemu říkají pravděpodobnost srážek (PoP), je jedním z nejméně pochopených prvků v předpovědi počasí. Má standardní definici: „Pravděpodobnost srážek je jednoduše statistická pravděpodobnost o 0.01 palce [sic] [sic] více srážek v dané oblasti v dané oblasti předpovědi v určeném časovém období. „Daná oblast“ je oblast předpovědi nebo broadlitá oblast. To znamená, že oficiální Pravděpodobnost srážek závisí na spolehlivosti, že někde v oblasti bude pršet, a na procentu oblasti, která zmokne. Jinými slovy, pokud je meteorolog přesvědčen, že v oblasti předpovědi bude pršet (spolehlivost = 100 %), pak PoP představuje část oblasti, kde bude pršet.  

Pařížská ulice; Deštivý den,Gustave Caillebotte (1848-1894) Chicago Art Institute Public Domain

Pravděpodobnost deště závisí jak na důvěře, tak na oblasti. Já nevěděl, že. Mám podezření, že to nevědí ani ostatní. Asi 75 % populace přesně nerozumí tomu, jak se PoP počítá nebo co má představovat. Takže jsme klamáni, nebo je to problém vnímání. Říkejme tomu vnímání srážek. Obviňujeme předpovědi počasí? Abychom byli spravedliví, nějaké jsou zmatek i mezi předpovědi počasí. V jednom přehled43 % dotázaných meteorologů uvedlo, že definice PoP je velmi malá konzistentní.

Samotná analýza je neobjektivní

Z pěti ovlivňujících faktorů může být nejpřekvapivější samotná analýza. Ve vědeckém výzkumu, jehož výsledkem je publikování recenzovaného článku, se obvykle předpokládá hypotéza, jsou definovány metody pro testování hypotézy, shromažďují se data a poté se analyzují. Typ analýzy, která se provádí a jak se provádí, je nedoceněný v tom, jak ovlivňuje závěry. V papír publikované na začátku tohoto roku (leden 2022), v International Journal of Cancer, autoři hodnotili, zda výsledky randomizovaných kontrolovaných studií a retrospektivních observačních studií. Jejich zjištění dospělo k závěru, že

Různými analytickými možnostmi ve výzkumu srovnávací účinnosti jsme generovali opačné výsledky. Naše výsledky naznačují, že některé retrospektivní observační studie mohou zjistit, že léčba zlepšuje výsledky pro pacienty, zatímco jiná podobná studie může zjistit, že nikoli, jednoduše na základě analytických rozhodnutí.

V minulosti, když jste četli článek ve vědeckém časopise, pokud jste jako já, jste si možná mysleli, že výsledky nebo závěry jsou pouze o datech. Nyní se zdá, že výsledky nebo to, zda se původní hypotéza potvrdí nebo vyvrátí, může také záviset na metodě analýzy.

Další studovat našli podobné výsledky. Článek, Mnoho analytiků, jeden soubor dat: Zprůhlednění toho, jak variace v analytických možnostech ovlivňují výsledky, popisuje, jak poskytli stejný soubor dat 29 různým týmům k analýze. Analýza dat je často vnímána jako přísný, dobře definovaný proces, který vede k jedinému závěru.  

Navzdory argumentům metodologů je snadné přehlédnout skutečnost, že výsledky mohou záviset na zvolené analytické strategii, která je sama o sobě prodchnuta teorií, předpoklady a body volby. V mnoha případech existuje mnoho rozumných (a mnoho nerozumných) přístupů k hodnocení dat, které se týkají výzkumné otázky.

Výzkumníci shromáždili analýzu dat a dospěli k závěru, že veškerý výzkum zahrnuje subjektivní rozhodnutí – včetně toho, jaký typ analýzy použít – což může ovlivnit konečný výsledek studie.

Doporučení jiného výzkumník kdo analyzoval výše uvedenou studii, je třeba být obezřetný při použití jediného papíru při rozhodování nebo vyvozování závěrů.

Řešení zkreslení v Analytics

Toto má být pouze varovný příběh. Znalosti nás mohou ochránit před podvody. Čím více si uvědomuje možné metody, které může skener použít, aby nás oklamal, tím méně je pravděpodobné, že nás zastihne, řekněme, nesprávné nasměrování kapsáře nebo hladké řeči o Ponziho hře. Tak je to s pochopením a rozpoznáním potenciálních předsudků, které ovlivňují naši analýzu. Pokud jsme si vědomi potenciálních vlivů, mohli bychom být schopni lépe prezentovat příběh a nakonec dělat lepší rozhodnutí.