Analitikai hazugság

by 31. augusztus 2022.BI/Analytics0 megjegyzések

Analitikai hazugság

Az elemzés elfogultsága

 

Mark Twain vitathatóan ezt mondta: „Háromféle hazugság létezik: hazugság, átkozott hazugság és analitika. " 

Magától értetődőnek tartjuk, hogy az analitika hasznos, megvalósítható betekintést nyújt számunkra. Gyakran nem vesszük észre, hogy saját és mások előítéletei hogyan befolyásolják a legkifinomultabb szoftverek és rendszerek által adott válaszokat is. Néha lehet, hogy tisztességtelenül manipulálnak bennünket, de leggyakrabban finom és öntudatlan torzítások kúsznak be az elemzésünkbe. Az elfogult elemzés mögött sokrétű motiváció áll. Néha a tudománytól elvárt pártatlan eredményeket 1) az adatok bemutatásának finom döntései befolyásolják, 2) inkonzisztens vagy nem reprezentatív adatok, 3) az AI-rendszerek képzésének módja, 4) a kutatók vagy mások tudatlansága, hozzá nem értése. elmesélni a történetet, 5) magát az elemzést.    

Az előadás elfogult

Néhány hazugság könnyebben észrevehető, mint mások. Ha tudja, mit kell keresnie, könnyebben észlelheti a potenciális lehetőségeket félrevezető grafikonok és diagramok. 

Legalábbis vannak öt módszer az adatok félrevezető megjelenítésére: 1) Korlátozott adatkészlet megjelenítése, 2). Nem kapcsolódó összefüggések megjelenítése, 3) Az adatok pontatlan megjelenítése, 4) Az adatok nem szokványos megjelenítése vagy 5). Túlegyszerűsített adatok megjelenítése.

Korlátozott adatkészlet megjelenítése

Az adatok korlátozása vagy az adatok egy nem véletlenszerű részének kézzel történő kiválasztása gyakran olyan történetet mesél el, amely nincs összhangban a nagy képpel. Rossz mintavételről vagy cseresznyeszedésről beszélünk, ha az elemző nem reprezentatív mintát használ egy nagyobb csoport képviseletére. 

Márciusban az 2020, Georgia Közegészségügyi Minisztériuma ezt a diagramot napi helyzetjelentésének részeként tette közzé. Valójában több kérdést vet fel, mint amennyit megválaszol.  

Az egyik hiányzó dolog a kontextus. Például hasznos lenne tudni, hogy az egyes korcsoportok hány százaléka a lakosságnak. Egy másik probléma az egyszerűnek tűnő kördiagrammal az egyenetlen korcsoportok. A 0-17 éves korig 18 év, a 18-59-ig 42, a 60+-ig nyílt végű, de 40 év körüli. A következtetés önmagában az ábra alapján az, hogy az esetek többsége a 18-59 éves korosztályba tartozik. Úgy tűnik, a 60 év feletti korosztályt kevésbé érintik a COVID-esetek. De ez nem az egész történet.

Összehasonlításképpen, ez a különböző adatkészlet a CDC webhely korcsoportonként ábrázolja a COVID-eseteket, és további adatokat tartalmaz az egyes korosztályok egyesült államokbeli lakosságának százalékos arányáról.  

Ez jobb. Több kontextusunk van. Láthatjuk, hogy a 18-29, 30-39, 40-49 éves korcsoportok esetében mind magasabb a megbetegedések aránya, mint a korosztály aránya a lakosságon belül. Még mindig vannak egyenetlen korcsoportok. Miért külön korosztály a 16-17 év? Mégsem ez az egész történet, de a szakértők ennél kevesebbről írtak rovatokat, jósoltak és megbíztak. Nyilvánvaló, hogy a COVID esetében az életkoron kívül számos olyan változó van, amely befolyásolja, hogy pozitív esetnek számítsunk: az oltottság állapota, a tesztek elérhetősége, a tesztelések száma, a társbetegségek és még sok más. Az esetek száma önmagában hiányos képet ad. A legtöbb szakértő megvizsgálja a halálozások számát vagy a halálozások 100,000 XNUMX lakosra jutó százalékos arányát vagy a halálesetek számát is, hogy megvizsgálja, hogyan érinti a COVID az egyes korcsoportokat.

Mutasson nem kapcsolódó összefüggéseket

Nyilvánvalóan létezik a erős korreláció Az Egyesült Államok tudományra, űrre és technológiára fordított kiadásai és az akasztás, megfojtás és megfojtás által elkövetett öngyilkosságok száma között. A korreláció 99.79%, majdnem tökéletes egyezés.  

De ki állítaná, hogy ezek valamilyen módon összefüggenek, vagy az egyik okozza a másikat? Vannak más kevésbé szélsőséges példák is, de nem kevésbé hamisak. Hasonló erős korreláció van a Scripps National Spelling Bee nyertes szavaiban szereplő betűk és a mérges pókok által megölt emberek száma között. Véletlen egybeesés? Te döntesz.

Egy másik módja annak, hogy ezeket az adatokat kevésbé félrevezető módon ábrázoljuk, az lenne, ha mindkét Y tengelyen nullát veszünk fel.

Az adatok pontatlan megjelenítése

Tól től Hogyan jelenítsünk meg rosszul adatokat, az Egyesült Államok Georgia állama bemutatta az 5 legjobb megyét, ahol a legtöbb igazolt COVID-19-eset van.

Legálisnak tűnik, igaz? Egyértelműen csökkenő tendenciát mutat a megerősített COVID-19 esetek száma. Tudod olvasni az X-tengelyt? Az X-tengely az időt jelenti. A dátumok általában balról jobbra nőnek. Itt egy kis időutazást látunk az X-tengelyen: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

Várjon? Mit? Az X-tengely nincs időrendben rendezve. Tehát bármilyen szépnek tűnik a trend, nem vonhatunk le következtetéseket. Ha a dátumok sorrendben vannak, az esetek számát jelző sávok inkább fűrészfogmintát mutatnak, mint bármiféle trendet.

Az egyszerű megoldás itt az, hogy a naptárak szerint rendezi a dátumokat.

Az adatok szokatlan megjelenítése

Mindannyian elfoglaltak vagyunk. Agyunk megtanított minket arra, hogy gyors ítéleteket hozzunk olyan feltevések alapján, amelyek világunkban következetesek. Például minden grafikon, amit valaha láttam, azt mutatja, hogy az x- és az y-tengely nulla vagy legalacsonyabb értéken találkozik. Röviden áttekintve ezt a táblázatot, milyen következtetéseket vonhat le a floridai hatásról – Tartsa be az alaptörvényét.”? Szégyellem bevallani, de ez a grafikon először megtévesztett. Szeme kényelmesen felhívható a szövegre és a nyílra a grafika közepén. Ezen a grafikonon a lent látható. Lehet, hogy ez nem hazugság – az adatok rendben vannak. De arra kell gondolnom, hogy ennek célja megtéveszteni. Ha még nem láttad, az y tengelyen a nulla van felül. Tehát, ahogy az adatok csökkennek, ez több halálesetet jelent. Ez a diagram azt mutatja, hogy a lőfegyverrel elkövetett gyilkosságok száma <p></p> 2005 után, amit a tendencia jelez le-.

Mutasd túlságosan leegyszerűsítve az adatokat

Az adatok túlzott egyszerűsítésének egyik példája látható, amikor az elemzők kihasználják a Simpson-paradoxont. Ez egy olyan jelenség, amely akkor fordul elő, ha az összesített adatok más következtetést mutatnak, mint amikor részhalmazokra bontják őket. Ebbe a csapdába könnyű beleesni, ha magas szintű összesített százalékokat nézünk. A Simpson-paradoxon munka közbeni egyik legtisztább illusztrációja ehhez kapcsolódik ütőképes átlagok.  

Itt láthatjuk, hogy Derek Jeter 1995-ös és 1996-os szezonban magasabb ütési átlaggal rendelkezik, mint David Justice. A paradoxon akkor jön, amikor rájövünk, hogy az igazságszolgáltatás mindkét évben felülmúlta Jetert az ütési átlagban. Ha figyelmesen megnézed, akkor van értelme, ha rájössz, hogy Jeternek 4-ban nagyjából 1996-szer több ütője volt (a nevező), 007-ban 1996-tel alacsonyabb átlaggal. Ezzel szemben az Justice-nak nagyjából 10-szerese volt az ütők számának csak . 003-mal magasabb átlag 1995-ben.

Az előadás egyértelműnek tűnik, de a Simpson-paradoxon akarva-akaratlanul is helytelen következtetésekhez vezetett. A közelmúltban a Simpson-paradoxonra voltak példák a hírekben és a közösségi médiában a vakcinákkal és a COVID-halandósággal kapcsolatban. Egy chart ábra egy vonaldiagramot mutat, amely összehasonlítja a 10-59 év közötti emberek halálozási arányát a beoltott és a be nem oltott emberek között. A diagram azt mutatja, hogy a be nem oltottaknál következetesen alacsonyabb a halálozási arány. Mi történik itt?  

A probléma hasonló ahhoz, amit az ütőképes átlagoknál tapasztalunk. A nevező ebben az esetben az egyes korcsoportok egyedszáma. A grafikon a különböző kimenetelű csoportokat egyesíti. Ha külön nézzük az idősebb, 50-59 éves korosztályt, azt látjuk, hogy jobban járnak a beoltottak. Ugyanígy, ha a 10-49-et nézzük, azt is látjuk, hogy az oltottak jobban járnak. Paradox módon, ha a kombinált készletet nézzük, úgy tűnik, hogy a be nem oltottak rosszabb kimenetelűek. Ily módon az adatok felhasználásával ellentétes érveket érhet el.

Az adatok elfogultak

Az adatokban nem mindig lehet megbízni. Még a tudományos közösségben is a megkérdezett kutatók több mint egyharmada elismerte „megkérdőjelezhető kutatási gyakorlatok”.  Másik kutató csalás nyomozó „Valószínűleg sokkal több csalás történik az adatokkal – táblázatokkal, vonaldiagramokkal, szekvenciális adatokkal [–, mint amennyit valójában felfedezünk]. Bárki, aki a konyhaasztalnál ül, feltehet néhány számot egy táblázatba, és elkészíthet egy meggyőzőnek tűnő vonaldiagramot.”

Ez az első példa úgy tűnik, valaki ezt tette. Nem azt mondom, hogy ez csalás, de felmérésként egyszerűen nem generál olyan adatot, amely hozzájárulna a megalapozott döntéshez. Úgy tűnik, hogy a felmérésben megkérdezték a válaszadókat a benzinkutas kávéról vagy más releváns aktuális eseményről. 

  1. Nagyszerű 
  2. Nagy
  3. Nagyon jó 

Vágtam a Twitter-bejegyzést, hogy eltávolítsam a bűnös félre való hivatkozásokat, de ez a felmérés végeredményének teljes táblázata. Az ehhez hasonló felmérések nem ritkák. Nyilvánvaló, hogy a válaszokból származó adatokból készített bármely diagram megmutatja, hogy a kérdéses kávét nem szabad kihagyni.  

A probléma az, hogy ha megkapta volna ezt a kérdőívet, és nem találna olyan választ, amely megfelel a gondolkodásának, akkor kihagyná a felmérést. Ez lehet egy extrém példa arra, hogyan lehet megbízhatatlan adatokat létrehozni. A rossz felmérés azonban kevesebb válaszhoz vezethet, és azoknak, akik válaszolnak, csak egy véleménye van, ez csak mérték kérdése. Az adatok elfogultak.

Ez a második példa az adattorzításra a "A COVID 19 legrosszabb félrevezető grafikonjai. " 

Ez megint csak finom és nem teljesen nyilvánvaló. Az oszlopdiagram a pozitív COVID-19 megbetegedések százalékos arányának egyenletes – majdnem túl egyenletes – csökkenését mutatja az idő múlásával egy floridai megyében. Könnyen levonhatja azt a következtetést, hogy az esetek csökkennek. Ez nagyszerű, a vizualizáció pontosan reprezentálja az adatokat. A probléma az adatokban van. Szóval ez egy alattomosabb elfogultság, mert nem látod. Az adatokba van beépítve. A kérdések, amelyeket fel kell tennie, többek között az, hogy kit tesztelnek? Vagyis mi a nevező, vagy aminek a népességét százalékában nézzük. Feltételezzük, hogy ez a teljes sokaság, vagy legalábbis egy reprezentatív minta.

Ebben az időszakban azonban ebben a megyében csak korlátozott számban végeztek vizsgálatokat. COVID-szerű tünetekkel kellett rendelkezniük, vagy a közelmúltban olyan országba utaztak, amely szerepel a hot spotok listáján. Ezenkívül megzavarja az eredményeket az a tény, hogy minden pozitív tesztet megszámoltak, és minden negatív tesztet megszámoltak. Jellemzően, ha egy egyén pozitív lett, akkor ismét tesztelt, amikor a vírus lefutott, és negatív lett. Tehát bizonyos értelemben minden pozitív esethez van egy negatív teszteset, amely érvényteleníti azt. A tesztek túlnyomó többsége negatív, és minden egyén negatív tesztjeit megszámolták. Láthatja, hogy az adatok mennyire torzak, és nem különösebben hasznosak a döntések meghozatalához. 

Az AI bevitele és képzése elfogult

Legalább két módja van annak, hogy a mesterséges intelligencia torzított eredményekhez vezethet: kezdve torzított adatokkal, vagy elfogult algoritmusokkal dolgozza fel az érvényes adatokat.  

Elfogult bemenet

Sokunknak az a benyomása, hogy a mesterséges intelligencia rábízható a számok törésére, az algoritmusok alkalmazására és az adatok megbízható elemzésére. A mesterséges intelligencia csak annyira lehet okos, amennyire képzett. Ha a betanított adatok tökéletlenek, akkor az eredményekben vagy a következtetésekben sem lehet megbízni. Hasonlóan a felmérés torzításának fenti esetéhez, az adatok többféle módon történhetnek elfogult gépi tanulásban:.  

  • Minta torzítás – a képzési adatkészlet nem reprezentálja a teljes sokaságot.
  • Kizárási torzítás – néha azok, amelyek kiugrónak tűnnek, valóban érvényesek, vagy hol húzzuk meg a határt, hogy mit kell belefoglalni (irányítószámok, dátumok stb.).
  • Mérési torzítás – a konvenció szerint mindig a meniszkusz közepétől és aljától kell mérni, például ha folyadékot mérünk mérőlombikban vagy kémcsövekben (kivéve a higanyt).
  • Emlékeztető elfogultság – amikor a kutatás a résztvevők memóriájától függ.
  • Megfigyelői elfogultság – a tudósok, mint minden ember, hajlamosabbak arra, hogy azt lássák, amit látni szeretnének.
  • Szexista és rasszista elfogultság – a nem vagy a faj túl- vagy alulreprezentált lehet.  
  • Társulási elfogultság – az adatok megerősítik a sztereotípiákat

Ahhoz, hogy a mesterséges intelligencia megbízható eredményeket adjon, a képzési adatoknak a való világot kell képviselniük. Amint azt egy korábbi blogcikkben megbeszéltük, az adatok előkészítése kritikus, mint minden más adatprojekt. A megbízhatatlan adatok rossz leckére taníthatják a gépi tanulási rendszereket, és rossz következtetésekhez vezethetnek. Ez azt mondta: „Minden adat elfogult. Ez nem paranoia. Ez tény.” – Dr. Sanjiv M. Narayan, Stanford University School of Medicine.

Az elfogult adatok oktatáshoz való felhasználása számos figyelemre méltó AI-hibához vezetett. (Példák itt és a itt, kutatás itt..)

Elfogult algoritmusok

Az algoritmus egy olyan szabálykészlet, amely elfogadja a bemenetet, és kimenetet hoz létre az üzleti probléma megválaszolásához. Ezek gyakran jól meghatározott döntési fák. Az algoritmusok fekete doboznak tűnnek. Gyakran senki sem tudja biztosan, hogyan működnek, még az sem azokat használó cégek. Ó, és gyakran tulajdonosok. Titokzatos és összetett természetük az egyik oka annak, hogy az elfogult algoritmusok ennyire alattomosak. . 

Fontolja meg az AI-algoritmusokat az orvostudományban, a HR-ben vagy a pénzügyekben, amelyek figyelembe veszik a fajt. Ha a faj a tényező, az algoritmus nem lehet fajilag vak. Ez nem elméleti. Ilyen problémákat fedeztek fel a való világban az AI in használatával bérbeadása, telekocsi, hiteligényléss, és veseátültetések

A lényeg az, hogy ha az adatok vagy az algoritmusok rosszak, rosszabbak a haszontalannál, akkor veszélyesek lehetnek. Van olyan, hogy „algoritmikus audit.” A cél az, hogy segítse a szervezeteket az algoritmussal kapcsolatos lehetséges kockázatok azonosításában, mivel az a méltányossághoz, elfogultsághoz és diszkriminációhoz kapcsolódik. Máshol, Facebook mesterséges intelligenciát használ a mesterséges intelligencia elfogultságának leküzdésére.

Az emberek elfogultak

Az egyenlet mindkét oldalán vannak emberek. Az emberek előkészítik az elemzést, és az emberek megkapják az információkat. Vannak kutatók és vannak olvasók. Bármilyen kommunikáció során problémák adódhatnak az adásban vagy a vételben.

Vegyük például az időjárást. Mit jelent az „eső esély”? Először is, mire gondolnak a meteorológusok, amikor azt mondják, hogy eső esélye van? Az amerikai kormány szerint Országos Meteorológiai Szolgálat, az eső esélye vagy az úgynevezett csapadék valószínűsége (PoP) az egyik legkevésbé ismert elem az időjárás-előrejelzésben. Van egy szabványos definíciója: "A csapadék valószínűsége egyszerűen 0.01 hüvelyk [sic] statisztikai valószínűsége [sic] több csapadéknak az adott területen az adott előrejelzési területen a megadott időszakban." Az „adott terület” az előrejelzési terület, vagy broadöntött terület. Ez azt jelenti, hogy a csapadék hivatalos valószínűsége attól a bizalomtól függ, hogy valahol esik az eső, és a terület hány százaléka lesz nedves. Más szóval, ha a meteorológus biztos abban, hogy az előrejelzési területen esni fog (bizalom = 100%), akkor a PoP a területnek azt a részét jelenti, amelyre eső esik.  

Párizs utca; Esős ​​nap,Gustave Caillebotte (1848-1894) Chicago Art Institute Public Domain

Az eső esélye a bizalomtól és a területtől is függ. Ezt nem tudtam. Gyanítom, hogy ezt mások sem tudják. A lakosság körülbelül 75%-a nem érti pontosan, hogyan számítják ki a PoP-t, vagy mit jelentenek. Tehát becsapnak minket, vagy ez észlelési probléma? Nevezzük ezt csapadékérzékelésnek. Az időjárás-előrejelzőt hibáztatjuk? Az igazság kedvéért, van néhány zavar az időjósok körében is. Egyben felmérés, a megkérdezett meteorológusok 43%-a azt mondta, hogy a PoP meghatározása nagyon kevés következetességgel rendelkezik.

Maga az elemzés elfogult

Az öt befolyásoló tényező közül maga az elemzés lehet a legmeglepőbb. A tudományos kutatásban, amelynek eredményeként egy áttekintett cikk jelenik meg, jellemzően elméletet állítanak fel, módszereket határoznak meg a hipotézis tesztelésére, adatokat gyűjtenek, majd az adatokat elemzik. Az elvégzett elemzés típusát és módját alulértékelték abban, hogy az milyen hatással van a következtetésekre. Az a papír Az év elején (2022 januárjában) az International Journal of Cancer című folyóiratban a szerzők azt értékelték, hogy a randomizált, kontrollált vizsgálatok és a retrospektív megfigyeléses vizsgálatok eredményei megfelelnek-e. Megállapításaik arra a következtetésre jutottak, hogy

Az összehasonlító hatékonysági kutatások során alkalmazott elemzési választások változatával ellentétes eredményeket értünk el. Eredményeink azt sugallják, hogy egyes retrospektív megfigyeléses tanulmányok azt találhatják, hogy a kezelés javítja a betegek kimenetelét, míg egy másik hasonló tanulmány azt találhatja, hogy nem, egyszerűen az analitikai döntések alapján.

A múltban, amikor egy tudományos folyóirat-cikket olvasott, ha olyan volt, mint én, azt gondolhatta, hogy az eredmények vagy a következtetések az adatokról szólnak. Most úgy tűnik, hogy az eredmények, illetve az, hogy a kezdeti hipotézis beigazolódik-e vagy megcáfolható, az elemzés módszerétől is függhet.

Másik tanulmány hasonló eredményeket talált. A cikk, Sok elemző, egy adathalmaz: átláthatóvá tesszük, hogy az elemzési választások változásai hogyan befolyásolják az eredményeket, leírja, hogyan adták át ugyanazt az adatkészletet 29 különböző csapatnak elemzésre. Az adatelemzést gyakran szigorú, jól meghatározott folyamatnak tekintik, amely egyetlen következtetéshez vezet.  

A módszertanosok tiltakozása ellenére könnyű figyelmen kívül hagyni azt a tényt, hogy az eredmények függhetnek a választott elemzési stratégiától, amelyet maga is áthat az elmélet, a feltevések és a választási pontok. Sok esetben számos ésszerű (és sok ésszerűtlen) megközelítés létezik a kutatási kérdést érintő adatok értékelésére.

A kutatók tömegesen gyűjtötték össze az adatok elemzését, és arra a következtetésre jutottak, hogy minden kutatás szubjektív döntéseket tartalmaz – beleértve azt is, hogy milyen típusú elemzést kell alkalmazni –, amelyek befolyásolhatják a tanulmány végső eredményét.

Másik ajánlása kutató aki a fenti tanulmányt elemezte, óvatosnak kell lennie, amikor egyetlen dokumentumot használ a döntések meghozatalakor vagy következtetések levonása során.

A torzítás kezelése az Analytics szolgáltatásban

Ez egyszerűen csak egy figyelmeztető mese. A tudás megóvhat minket attól, hogy csalások csapjanak be. Minél jobban tudatában vannak a lehetséges módszereknek, amelyekkel egy szkenner megtéveszthet minket, annál kisebb az esélye annak, hogy mondjuk egy zsebtolvaj félrevezetése vagy egy Ponzi-játék zökkenőmentes beszéde. Így van ez az elemzésünket befolyásoló lehetséges torzítások megértésével és felismerésével is. Ha tisztában vagyunk a lehetséges hatásokkal, jobban be tudjuk mutatni a történetet, és végül jobb döntéseket hozunk.  

BI/AnalyticsNem kategorizált
Miért a Microsoft Excel az első számú elemző eszköz?
Miért az Excel az első számú elemző eszköz?

Miért az Excel az első számú elemző eszköz?

  Ez olcsó és egyszerű. A Microsoft Excel táblázatkezelő szoftver valószínűleg már telepítve van az üzleti felhasználó számítógépén. És sok felhasználó manapság már középiskola óta vagy még korábban is találkozott a Microsoft Office szoftverrel. Ez a térdreméltó válasz arra, hogy...

KATT ide

BI/AnalyticsNem kategorizált
Tisztítsa meg betekintéseit: Útmutató az Analytics tavaszi nagytakarításhoz

Tisztítsa meg betekintéseit: Útmutató az Analytics tavaszi nagytakarításhoz

Tisztítsa meg betekintéseit Útmutató az elemzésekhez Tavaszi nagytakarítás Az új év lendületesen indul; év végi jelentések készülnek és átvizsgálják, majd mindenki beáll a következetes munkarendbe. Ahogy hosszabbodnak a nappalok, virágoznak a fák és virágok,...

KATT ide

BI/Analytics
Analytics katalógusok – Feltörekvő csillag az Analytics ökoszisztémában

Analytics katalógusok – Feltörekvő csillag az Analytics ökoszisztémában

Bevezetés Technológiai vezérigazgatóként (CTO) mindig azon új technológiákat keresem, amelyek megváltoztatják az analitika megközelítését. Az egyik ilyen technológia, amely felkeltette a figyelmemet az elmúlt néhány évben, és óriási ígéretekkel bír, az az Analytics...

KATT ide