Analytická lož

by Augusta 31, 2022BI/Analytika0 komentáre

Analytická lož

Zaujatosť analýzy

 

Mark Twain diskutabilne povedal niečo ako: „Existujú tri druhy klamstiev: klamstvá, prekliate klamstvá a analytika. " 

Považujeme za samozrejmé, že analytika nám poskytuje užitočné a použiteľné informácie. Často si neuvedomujeme, ako naše vlastné predsudky a predsudky iných ovplyvňujú odpovede, ktoré nám dávajú aj tie najsofistikovanejšie softvéry a systémy. Niekedy s nami možno manipulujú nečestne, ale častejšie to môžu byť jemné a nevedomé predsudky, ktoré sa vkradnú do našich analýz. Motivácia zaujatej analýzy je mnohoraká. Niekedy sú nestranné výsledky, ktoré od vedy očakávame, ovplyvnené 1) jemnými voľbami v spôsobe prezentácie údajov, 2) nekonzistentnými alebo nereprezentatívnymi údajmi, 3) tým, ako sú systémy AI trénované, 4) nevedomosťou, neschopnosťou výskumníkov alebo iných, ktorí sa snažia vyrozprávať príbeh, 5) samotná analýza.    

Prezentácia je neobjektívna

Niektoré klamstvá sa dajú odhaliť ľahšie ako iné. Keď viete, čo hľadať, môžete to ľahšie odhaliť zavádzajúce grafy a tabuľky. 

Je ich minimálne päť spôsobov, ako klamlivo zobraziť údaje: 1) Zobraziť obmedzený súbor údajov, 2). Zobraziť nesúvisiace korelácie, 3) zobraziť údaje nepresne, 4) zobraziť údaje nekonvenčne alebo 5). Zobraziť údaje príliš zjednodušené.

Zobraziť obmedzený súbor údajov

Obmedzenie údajov alebo ručný výber nenáhodnej časti údajov môže často rozprávať príbeh, ktorý nie je v súlade s celkovým obrazom. Zlé vzorkovanie alebo výber čerešní je, keď analytik používa nereprezentatívnu vzorku na reprezentáciu väčšej skupiny. 

V marci 2020, Gruzínske ministerstvo verejného zdravotníctva zverejnil tento graf ako súčasť svojej dennej správy o stave. V skutočnosti vyvoláva viac otázok ako odpovedí.  

Jedna z vecí, ktorá chýba, je kontext. Napríklad by bolo užitočné vedieť, aké percento populácie je pre každú vekovú skupinu. Ďalším problémom s jednoducho vyzerajúcim koláčovým grafom sú nerovnomerné vekové skupiny. 0-17 má 18 rokov, 18-59 má 42, 60+ je otvorený koniec, ale má okolo 40 rokov. Záver, ak vezmeme do úvahy iba túto tabuľku, je, že väčšina prípadov je vo vekovej skupine 18-59 rokov. Zdá sa, že veková skupina 60+ je menej vážne postihnutá prípadmi COVID. Ale toto nie je celý príbeh.

Pre porovnanie, tento rozdielny súbor údajov o Webová stránka CDC grafy prípadov COVID podľa vekových skupín s ďalšími údajmi o percente populácie USA v každom vekovom rozsahu.  

To je lepšie. Máme viac súvislostí. Vidíme, že všetky vekové skupiny 18-29, 30-39, 40-49 majú vyššie percento prípadov ako percento vekovej skupiny v populácii. Stále existujú nerovnomerné vekové skupiny. Prečo je 16-17 samostatná veková skupina? Stále to nie je celý príbeh, ale odborníci písali stĺpce, robili predpovede a mandáty na menej ako toto. Je zrejmé, že v prípade COVID existuje okrem veku mnoho premenných, ktoré ovplyvňujú, že sa počíta ako pozitívny prípad: stav očkovania, dostupnosť testov, počet testov, komorbidity a mnohé ďalšie. Počet prípadov sám o sebe poskytuje neúplný obraz. Väčšina odborníkov sa tiež zaoberá počtom úmrtí alebo percentami úmrtí na 100,000 XNUMX obyvateľov alebo smrteľnými prípadmi, aby zistila, ako COVID ovplyvňuje jednotlivé vekové skupiny.

Zobraziť nesúvisiace korelácie

Je zrejmé, že existuje a silná korelácia medzi výdavkami USA na vedu, vesmír a technológiu a počtom samovrážd obesením, uškrtením a udusením. Korelácia je 99.79 %, takmer dokonalá zhoda.  

Kto by však tvrdil, že spolu nejako súvisia alebo jedno spôsobuje druhé? Existujú aj iné menej extrémne príklady, ale nie menej falošné. Existuje podobná silná korelácia medzi písmenami vo víťaznom slove Scripps National Spelling Bee a počtom ľudí zabitých jedovatými pavúkmi. Náhoda? Ty rozhodni.

Ďalším spôsobom, ako zmapovať tieto údaje, ktorý môže byť menej zavádzajúci, by bolo zahrnúť nulu na oboch osiach Y.

Zobrazovať údaje nepresne

od Ako zle zobraziť údaje, americký štát Georgia predstavil 5 krajín s najväčším počtom potvrdených prípadov COVID-19.

Vyzerá to legitímne, však? Je zrejmé, že existuje klesajúci trend potvrdených prípadov COVID-19. Dokážete prečítať os X? Os X predstavuje čas. Dátumy sa zvyčajne budú zvyšovať zľava doprava. Tu vidíme malé cestovanie v čase na osi X: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

počkať? Čo? Os X nie je zoradená chronologicky. Takže, akokoľvek pekne môže trend vyzerať, nemôžeme robiť žiadne závery. Ak sú dátumy zoradené, stĺpce pre počet prípadov ukazujú skôr pílovitý vzor ako akýkoľvek druh trendu.

Jednoduchým riešením je zoradiť dátumy tak, ako to robí kalendár.

Zobrazujte dáta netradične

Všetci sme zaneprázdnení. Náš mozog nás naučil robiť rýchle úsudky na základe predpokladov, ktoré sú v našom svete konzistentné. Napríklad každý graf, ktorý som kedy videl, ukazuje, že osi x a y sa stretávajú na nulových alebo najnižších hodnotách. Keď sa stručne pozriete na túto tabuľku, aké závery môžete vyvodiť o vplyve Floridy „Držte sa svojho základného zákona.“? Hanbím sa to priznať, ale tento graf ma najskôr oklamal. Vaše oko pohodlne pritiahne text a šípka v strede grafiky. Dolu je v tomto grafe hore. Nemusí to byť lož – údaje sú tam v poriadku. Ale musím si myslieť, že to má klamať. Ak ste to ešte nevideli, nula na osi y je hore. Takže keď údaje klesajú, znamená to viac úmrtí. Tento graf ukazuje počet vrážd s použitím strelných zbraní vzrástol po roku 2005, čo naznačuje pokračujúci trend dole.

Zobrazte údaje príliš zjednodušené

Jeden príklad prílišného zjednodušenia údajov možno vidieť, keď analytici využívajú Simpsonov paradox. Ide o jav, ku ktorému dochádza, keď sa zdá, že agregované údaje preukazujú iný záver, ako keď sú rozdelené do podskupín. Do tejto pasce sa dá ľahko dostať pri pohľade na agregované percentá na vysokej úrovni. Jedna z najjasnejších ilustrácií Simpsonovho paradoxu v práci súvisí s pálkařské priemery.  

Tu vidíme, že Derek Jeter má v sezónach 1995 a 1996 vyšší celkový priemer odpalov ako David Justice. Paradox nastáva, keď si uvedomíme, že Spravodlivosť porazila Jetera v odpalovom priemere v oboch týchto rokoch. Ak sa pozriete pozorne, dáva to zmysel, keď si uvedomíte, že Jeter mal v roku 4 zhruba 1996-krát viac netopierov (menovateľ) pri nižšom priemere v roku 007 o 1996. Zatiaľ čo Justice mala zhruba 10-násobok počtu netopierov iba pri . 003 vyšší priemer v roku 1995.

Prezentácia sa zdá byť priamočiara, ale Simpsonov paradox, vedome alebo nevedomky, viedol k nesprávnym záverom. Nedávno sa v správach a na sociálnych médiách objavili príklady Simpsonovho paradoxu súvisiace s očkovaním a úmrtnosťou na COVID. Jeden graf ukazuje čiarový graf porovnávajúci úmrtnosť medzi očkovanými a neočkovanými ľuďmi vo veku 10-59 rokov. Graf ukazuje, že neočkovaní majú trvalo nižšiu úmrtnosť. Čo sa tu deje?  

Problém je podobný tomu, ktorý vidíme pri priemeroch odpalov. Menovateľom je v tomto prípade počet jedincov v každej vekovej skupine. Graf kombinuje skupiny, ktoré majú rôzne výsledky. Ak sa pozrieme na staršiu vekovú skupinu 50-59 rokov oddelene, vidíme, že očkovaní sú na tom lepšie. Rovnako, ak sa pozrieme na 10-49, tiež vidíme, že očkovaní sú na tom lepšie. Paradoxne, pri pohľade na kombinovaný súbor sa zdá, že neočkovaní majú horší výsledok. Týmto spôsobom môžete pomocou údajov zdôvodniť opačné argumenty.

Údaje sú skreslené

Dátam sa nedá vždy dôverovať. Dokonca aj vo vedeckej komunite sa viac ako tretina opýtaných výskumníkov priznala „sporné výskumné postupy“.  Ďalšie výskumný detektív podvodov hovorí: „V údajoch – tabuľkách, čiarových grafoch, sekvenčných údajoch je veľmi pravdepodobne oveľa viac podvodov, než v skutočnosti zisťujeme. Každý, kto sedí pri kuchynskom stole, môže vložiť nejaké čísla do tabuľky a vytvoriť čiarový graf, ktorý vyzerá presvedčivo.“

Toto je prvé příklad zdá sa, že to niekto urobil. Nehovorím, že ide o podvod, ale ako prieskum to jednoducho negeneruje žiadne údaje, ktoré by prispeli k informovanému rozhodnutiu. Vyzerá to tak, že prieskum sa pýtal respondentov na ich názor na kávu na čerpacej stanici alebo inú relevantnú aktuálnu udalosť. 

  1. nádherný 
  2. Veľký
  3. Veľmi dobrý 

Orezal som príspevok na Twitteri, aby som odstránil odkazy na vinníka, ale toto je skutočný celý graf konečných výsledkov prieskumu. Takéto prieskumy nie sú nezvyčajné. Je zrejmé, že každý graf vytvorený z údajov vyplývajúcich z odpovedí ukáže, že príslušnú kávu si nesmiete nechať ujsť.  

Problém je v tom, že ak by ste dostali tento prieskum a nenašli by ste odpoveď, ktorá by vyhovovala vášmu mysleniu, prieskum by ste preskočili. Toto môže byť extrémny príklad toho, ako sa dajú vytvárať nedôveryhodné údaje. Zlý dizajn prieskumu však môže viesť k menšiemu počtu odpovedí a tí, ktorí odpovedajú, majú iba jeden názor, je to len otázka miery. Údaje sú skreslené.

Tento druhý príklad skreslenia údajov pochádza zo súborov „Najhoršie zavádzajúce grafy COVID 19. " 

Opäť je to jemné a nie úplne zrejmé. Stĺpcový graf ukazuje plynulý – až príliš hladký – pokles percenta pozitívnych prípadov COVID-19 v priebehu času pre okres na Floride. Ľahko by ste mohli vyvodiť záver, že prípadov ubúda. To je skvelé, vizualizácia presne reprezentuje dáta. Problém je v údajoch. Takže je to zákernejšia zaujatosť, pretože ju nevidíte. Je to zapečené v dátach. Otázky, ktoré musíte položiť, zahŕňajú, kto je testovaný? Inými slovami, čo je menovateľom, alebo populácia, na ktorú sa pozeráme v percentách. Predpokladom je, že ide o celú populáciu alebo aspoň o reprezentatívnu vzorku.

Počas tohto obdobia sa však v tomto kraji testy dávali len obmedzenému počtu ľudí. Museli mať príznaky podobné COVID alebo nedávno cestovali do krajiny na zozname horúcich miest. Výsledky navyše mätie skutočnosť, že každý pozitívny test sa započítal a každý negatívny test sa započítal. Typicky, keď bol jednotlivec testovaný pozitívne, testoval by znova, keď vírus prebehol a test bol negatívny. Takže v istom zmysle pre každý pozitívny prípad existuje negatívny testovací prípad, ktorý ho zruší. Prevažná väčšina testov je negatívna a negatívne testy každého jednotlivca boli spočítané. Môžete vidieť, ako sú údaje skreslené a nie sú obzvlášť užitočné pri rozhodovaní. 

Vstup a školenie AI je skreslené

Existujú prinajmenšom dva spôsoby, ktorými môže AI viesť k skresleným výsledkom: začať so skreslenými údajmi alebo použiť skreslené algoritmy na spracovanie platných údajov.  

Predpojatý vstup

Mnohí z nás majú dojem, že AI sa dá spoľahnúť na to, že dokáže potlačiť čísla, použiť svoje algoritmy a vychrliť spoľahlivú analýzu údajov. Umelá inteligencia môže byť len taká inteligentná, ako je trénovaná. Ak sú údaje, na ktorých sa trénuje, nedokonalé, nebude možné dôverovať ani výsledkom alebo záverom. Podobne ako vo vyššie uvedenom prípade skreslenia prieskumu existuje niekoľko spôsobov, ako môžu byť údaje predpojatý v strojovom učení:.  

  • Skreslenie vzorky – súbor trénovacích údajov nie je reprezentatívny pre celú populáciu.
  • Zaujatosť vylúčenia – niekedy je skutočne platné to, čo sa javí ako odľahlé, alebo tam, kde robíme čiaru medzi tým, čo zahrnúť (PSČ, dátumy atď.).
  • Skreslenie merania – konvenciou je vždy merať od stredu a spodku menisku, napríklad pri meraní kvapalín v odmerných bankách alebo skúmavkách (okrem ortuti).
  • Recall bias – keď výskum závisí od pamäti účastníkov.
  • Zaujatosť pozorovateľa – vedci, rovnako ako všetci ľudia, sú viac naklonení vidieť to, čo očakávajú.
  • Sexistické a rasistické predsudky – pohlavie alebo rasa môžu byť nadmerne alebo nedostatočne zastúpené.  
  • Asociačná zaujatosť – údaje posilňujú stereotypy

Aby AI priniesla spoľahlivé výsledky, jej tréningové dáta musia reprezentovať skutočný svet. Ako sme diskutovali v predchádzajúcom článku na blogu, príprava údajov je kritická a ako každý iný dátový projekt. Nespoľahlivé údaje môžu naučiť systémy strojového učenia nesprávnu lekciu a budú mať za následok nesprávny záver. To znamená: „Všetky údaje sú skreslené. Toto nie je paranoja. Toto je fakt.” – Dr. Sanjiv M. Narayan, Lekárska fakulta Stanfordskej univerzity.

Používanie skreslených údajov na školenie viedlo k množstvu pozoruhodných zlyhaní AI. (Príklady tu a tu, výskum tu..)

Predpojaté algoritmy

Algoritmus je súbor pravidiel, ktoré akceptujú vstup a vytvárajú výstup na riešenie obchodného problému. Často sú to dobre definované rozhodovacie stromy. Algoritmy vyzerajú ako čierne skrinky. Nikto si nie je istý, ako fungujú, často ani nie spoločnosti, ktoré ich používajú. Oh, a často sú vlastníctvom. Ich tajomná a zložitá povaha je jedným z dôvodov, prečo sú zaujaté algoritmy také zákerné. . 

Zvážte algoritmy AI v medicíne, HR alebo financiách, ktoré berú do úvahy rasu. Ak je rasa faktorom, algoritmus nemôže byť rasovo slepý. Toto nie je teoretické. Problémy ako tieto boli objavené v reálnom svete pomocou AI prenájom, spolujazda, žiadosti o úvers, a transplantácie obličky

Pointa je, že ak sú vaše údaje alebo algoritmy zlé, horšie ako zbytočné, môžu byť nebezpečné. Existuje niečo ako „algoritmický audit.“ Cieľom je pomôcť organizáciám identifikovať potenciálne riziká súvisiace s algoritmom, pokiaľ ide o spravodlivosť, zaujatosť a diskrimináciu. inde, facebook používa AI na boj proti zaujatosti v AI.

Ľudia sú zaujatí

Máme ľudí na oboch stranách rovnice. Ľudia pripravujú analýzu a ľudia dostávajú informácie. Sú výskumníci a sú čitatelia. Pri akejkoľvek komunikácii môžu nastať problémy s prenosom alebo príjmom.

Vezmite si napríklad počasie. Čo znamená „pravdepodobnosť dažďa“? Po prvé, čo majú meteorológovia na mysli, keď hovoria, že existuje možnosť dažďa? Podľa americkej vlády Národná meteorologická služba, pravdepodobnosť dažďa alebo to, čo nazývajú pravdepodobnosť zrážok (PoP), je jedným z najmenej pochopených prvkov v predpovedi počasia. Má štandardnú definíciu: „Pravdepodobnosť zrážok je jednoducho štatistická pravdepodobnosť o 0.01 palca [sic] [sic] viac zrážok v danej oblasti v danej oblasti predpovede v určenom časovom období. „Daná oblasť“ je oblasť predpovede, alebo broadodlievaná oblasť. To znamená, že oficiálna Pravdepodobnosť zrážok závisí od istoty, že niekde v oblasti bude pršať, a od percenta plochy, ktorá zmokne. Inými slovami, ak je meteorológ presvedčený, že v predpovedanej oblasti bude pršať (spoľahlivosť = 100 %), potom PoP predstavuje časť oblasti, v ktorej bude pršať.  

Parížska ulica; Upršaný deň,Gustave Caillebotte (1848-1894) Chicago Art Institute Public Domain

Pravdepodobnosť dažďa závisí od sebadôvery a oblasti. To som nevedel. Mám podozrenie, že to nevedia ani ostatní. Asi 75 % populácie presne nerozumie tomu, ako sa PoP počíta alebo čo to má reprezentovať. Necháme sa teda oklamať, alebo je to problém vnímania. Nazvime to vnímanie zrážok. Obviňujeme predpovede počasia? Aby som bol spravodlivý, takí sú zmätok aj medzi meteorológmi. V jednom prehľad43 % opýtaných meteorológov uviedlo, že definícia PoP je veľmi malá.

Samotná analýza je neobjektívna

Z piatich ovplyvňujúcich faktorov môže byť najprekvapivejšia samotná analýza. Vo vedeckom výskume, ktorého výsledkom je publikovaný recenzovaný článok, sa zvyčajne predpokladá teória, definujú sa metódy na testovanie hypotézy, zhromažďujú sa údaje a potom sa analyzujú. Typ analýzy, ktorá sa robí a ako sa robí, sa podceňuje v tom, ako ovplyvňuje závery. V papier publikované začiatkom tohto roka (január 2022), v International Journal of Cancer, autori hodnotili, či výsledky randomizovaných kontrolovaných štúdií a retrospektívnych pozorovacích štúdií. Ich zistenia dospeli k záveru, že

Zmenou analytických možností v porovnávacom výskume efektívnosti sme dosiahli opačné výsledky. Naše výsledky naznačujú, že niektoré retrospektívne pozorovacie štúdie môžu zistiť, že liečba zlepšuje výsledky pre pacientov, zatiaľ čo iná podobná štúdia môže zistiť, že nie, jednoducho na základe analytických rozhodnutí.

V minulosti, keď ste čítali článok vo vedeckom časopise, ak ste ako ja, ste si možno mysleli, že výsledky alebo závery sú len o údajoch. Teraz sa zdá, že výsledky alebo to, či sa počiatočná hypotéza potvrdí alebo vyvráti, môže závisieť aj od metódy analýzy.

Ďalšie študovať našli podobné výsledky. Článok, Mnoho analytikov, jeden súbor údajov: Transparentnosť toho, ako variácie v analytických možnostiach ovplyvňujú výsledky, opisuje, ako poskytli rovnaký súbor údajov 29 rôznym tímom na analýzu. Analýza údajov sa často považuje za prísny, dobre definovaný proces, ktorý vedie k jedinému záveru.  

Napriek námietkam metodológov je ľahké prehliadnuť skutočnosť, že výsledky môžu závisieť od zvolenej analytickej stratégie, ktorá je sama o sebe presiaknutá teóriou, predpokladmi a bodmi výberu. V mnohých prípadoch existuje veľa rozumných (a veľa nerozumných) prístupov k hodnoteniu údajov, ktoré súvisia s výskumnou otázkou.

Výskumníci získali analýzu údajov zo skupiny a dospeli k záveru, že každý výskum zahŕňa subjektívne rozhodnutia – vrátane toho, aký typ analýzy použiť – ktoré môžu ovplyvniť konečný výsledok štúdie.

Odporúčanie iného výskumník ktorí analyzovali vyššie uvedenú štúdiu, je potrebné byť opatrný pri použití jedného dokumentu pri rozhodovaní alebo vyvodzovaní záverov.

Riešenie zaujatosti v službe Analytics

Toto má byť jednoducho varovný príbeh. Vedomosti nás môžu ochrániť pred podvodmi. Čím viac si je skener vedomý možných metód, aby nás oklamal, tým je menej pravdepodobné, že nás zastihne, povedzme, nesprávne nasmerovanie vreckového zlodeja alebo hladké rozprávanie o Ponziho hre. Tak je to aj s pochopením a rozpoznaním potenciálnych predsudkov, ktoré ovplyvňujú našu analýzu. Ak sme si vedomí potenciálnych vplyvov, možno by sme vedeli lepšie predstaviť príbeh a v konečnom dôsledku robiť lepšie rozhodnutia.  

BI/AnalytikaNezaradené
Urobte si poriadok vo svojich postrehoch: Sprievodca analytickým jarným upratovaním

Urobte si poriadok vo svojich postrehoch: Sprievodca analytickým jarným upratovaním

Uvoľnite svoje poznatky Sprievodca analýzou Jarné upratovanie Nový rok sa začína s ranou; vytvoria sa a skontrolujú sa koncoročné správy a potom sa všetci zariadia do konzistentného pracovného plánu. Ako sa dni predlžujú a stromy a kvety kvitnú,...

Čítaj viac