Analīzes meli

by Augusts 31, 2022BI/Analytics0 komentāri

Analīzes meli

Analīzes neobjektivitāte

 

Marks Tvens diskutējami teica: “Ir trīs veidu meli: meli, sasodīti meli un analytics. " 

Mēs uzskatām par pašsaprotamu, ka analītika sniedz mums noderīgus, praktiski izmantojamus ieskatus. Mēs bieži neapzināmies, kā mūsu pašu un citu aizspriedumi ietekmē atbildes, ko mums sniedz pat vismodernākā programmatūra un sistēmas. Dažreiz ar mums var manipulēt negodīgi, bet biežāk mūsu analīzē iekļūst smalkas un neapzinātas aizspriedumi. Neobjektīvas analīzes motivācija ir daudzveidīga. Dažkārt objektīvos rezultātus, ko mēs sagaidām no zinātnes, ietekmē 1) smalkas izvēles attiecībā uz datu pasniegšanu, 2) nekonsekventi vai nereprezentatīvi dati, 3) AI sistēmu apmācība, 4) pētnieku vai citu cilvēku nezināšana, nekompetence. lai pastāstītu stāstu, 5) pati analīze.    

Prezentācija ir neobjektīva

Dažus melus ir vieglāk pamanīt nekā citus. Ja zināt, ko meklēt, varat vieglāk atklāt potenciālu maldinoši grafiki un diagrammas. 

Ir vismaz pieci veidi, kā maldinoši parādīt datus: 1) Rādīt ierobežotu datu kopu, 2). Rādīt nesaistītas korelācijas, 3) rādīt datus neprecīzi, 4) rādīt datus netradicionāli vai 5). Rādīt pārāk vienkāršotus datus.

Rādīt ierobežotu datu kopu

Datu ierobežošana vai nejauša datu sadaļas izvēle bieži vien var pastāstīt stāstu, kas neatbilst kopējam attēlam. Slikta paraugu ņemšana jeb ķiršu atlase ir tad, kad analītiķis izmanto nereprezentatīvu paraugu, lai pārstāvētu lielāku grupu. 

Martā 2020, Džordžijas Sabiedrības veselības departaments publicēja šo diagrammu kā daļu no sava ikdienas stāvokļa ziņojuma. Tas patiesībā rada vairāk jautājumu nekā sniedz atbildes.  

Viena no lietām, kas trūkst, ir konteksts. Piemēram, būtu noderīgi zināt, kāds ir iedzīvotāju īpatsvars katrā vecuma grupā. Vēl viena problēma ar vienkāršā izskata sektoru diagrammu ir nevienmērīgās vecuma grupas. 0-17 ir 18 gadi, 18-59 ir 42, 60+ ir beztermiņa, bet ir aptuveni 40 gadi. Secinājums, ņemot vērā tikai šo diagrammu, ir tāds, ka lielākā daļa gadījumu ir vecuma grupā no 18 līdz 59 gadiem. Šķiet, ka 60+ gadus veco grupu COVID gadījumi skar mazāk. Bet tas nav viss stāsts.

Salīdzinājumam šī atšķirīgā datu kopa vietnē CDC vietne attēlo COVID gadījumus pa vecuma grupām ar papildu datiem par ASV iedzīvotāju skaitu katrā vecuma diapazonā.  

Tas ir labāk. Mums ir vairāk konteksta. Redzams, ka vecuma grupās 18-29, 30-39, 40-49 ir ​​lielāks gadījumu skaits nekā vecuma grupas procentuālais īpatsvars populācijā. Joprojām pastāv dažas nevienmērīgas vecuma grupas. Kāpēc 16-17 gadi ir atsevišķa vecuma grupa? Tomēr šis nav viss stāsts, bet eksperti ir rakstījuši slejas, izteikuši prognozes un pilnvaras par šo. Acīmredzot COVID gadījumā papildus vecumam ir daudz mainīgo lielumu, kas ietekmē to, ka tiek uzskatīts par pozitīvu gadījumu: vakcinācijas statuss, testu pieejamība, pārbaužu skaits, blakusslimības un daudzi citi. Lietu skaits pats par sevi sniedz nepilnīgu priekšstatu. Lielākā daļa ekspertu aplūko arī nāves gadījumu skaitu vai nāves gadījumu procentuālo daļu uz 100,000 XNUMX iedzīvotāju vai nāves gadījumu skaitu, lai noskaidrotu, kā COVID ietekmē katru vecuma grupu.

Parādiet nesaistītas korelācijas

Acīmredzot ir a spēcīga korelācija starp ASV izdevumiem zinātnei, kosmosam un tehnoloģijām un pašnāvību skaitu pakarot, nožņaugt un nosmakt. Korelācija ir 99.79%, gandrīz ideāla atbilstība.  

Kurš gan varētu apgalvot, ka tie ir kaut kā saistīti vai viens izraisa otru? Ir arī citi mazāk ekstrēmi piemēri, taču ne mazāk viltoti. Pastāv līdzīga cieša korelācija starp burtiem Scripps National Spelling Bee uzvarējumā un indīgo zirnekļu nogalināto cilvēku skaitu. Nejaušība? Izlem tu.

Vēl viens veids, kā attēlot šos datus, kas var būt mazāk maldinoši, ir iekļaut nulli uz abām Y asīm.

Rādīt datus neprecīzi

no Kā slikti parādīt datus, ASV Džordžijas štats iepazīstināja ar 5 populārākajiem apgabaliem ar vislielāko apstiprināto COVID-19 gadījumu skaitu.

Izskatās likumīgi, vai ne? Ir acīmredzama apstiprināto COVID-19 gadījumu skaita samazināšanās tendence. Vai jūs varat nolasīt X asi? X ass apzīmē laiku. Parasti datumi palielināsies no kreisās puses uz labo. Šeit mēs redzam nelielu laika ceļojumu uz X ass: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

Pagaidi? Kas? X ass nav sakārtota hronoloģiski. Tāpēc, lai cik jauki izskatās tendence, mēs nevaram izdarīt nekādus secinājumus. Ja datumi ir pasūtīti, gadījumu skaita joslas parāda vairāk zāģa zoba rakstu, nevis jebkāda veida tendences.

Vienkāršākais risinājums ir kārtot datumus tā, kā to dara kalendārs.

Rādīt datus netradicionāli

Mēs visi esam aizņemti. Mūsu smadzenes ir iemācījušas mums pieņemt ātrus spriedumus, pamatojoties uz pieņēmumiem, kas ir bijuši konsekventi mūsu pasaulē. Piemēram, katrs grafiks, ko jebkad esmu redzējis, parāda x un y asis, kas satiekas ar nulli vai zemākajām vērtībām. Īsi aplūkojot šo diagrammu, kādus secinājumus varat izdarīt par Floridas ietekmi “Ievērojiet savu pamatlikumu.”? Man ir kauns to atzīt, bet šis grafiks mani sākumā apmānīja. Jūsu acs ir ērti pievērsta tekstam un bultiņai grafikas vidū. Šajā grafikā ir uz leju. Iespējams, ka tie nav meli – ar datiem viss ir kārtībā. Bet man jādomā, ka tas ir domāts maldināšanai. Ja vēl neesat to redzējis, nulle uz y ass atrodas augšpusē. Tātad, datu tendencei samazinoties, tas nozīmē vairāk nāves gadījumu. Šī diagramma parāda, ka slepkavību skaits, izmantojot šaujamieročus palielinājās pēc 2005. gada, par ko liecina tendence uz leju.

Parādiet pārāk vienkāršotus datus

Viens piemērs datu pārmērīgai vienkāršošanai ir redzams, kad analītiķi izmanto Simpsona paradoksu. Šī ir parādība, kas rodas, ja šķiet, ka apkopotie dati parāda atšķirīgu secinājumu nekā tad, ja tie ir sadalīti apakškopās. Šajā slazdā ir viegli iekrist, aplūkojot augsta līmeņa apkopotos procentus. Viena no spilgtākajām Simpsona paradoksa ilustrācijām darbā ir saistīta ar vatelīns vidēji.  

Šeit redzams, ka Derekam Džeteram 1995. un 1996. gada sezonās ir augstāks kopējais sišanas vidējais rādītājs nekā Deividam Džastisam. Paradokss parādās, kad mēs saprotam, ka tiesnesis pārspēja Džeteru abu šo gadu vidējā rādītājā. Ja paskatās uzmanīgi, tas ir loģiski, ja saprotat, ka Džeteram 4. gadā bija aptuveni 1996 reizes vairāk sikspārņu (saucējs) un 007. gadā vidējais rādītājs bija par 1996. Turpretim Justice bija aptuveni 10 reizes lielāks par sikspārņu skaitu tikai . 003 augstāks vidējais rādītājs 1995. gadā.

Prezentācija šķiet vienkārša, bet Simpsona paradokss, apzināti vai neapzināti, ir novedis pie nepareiziem secinājumiem. Pēdējā laikā ziņās un sociālajos medijos ir bijuši piemēri par Simpsona paradoksu saistībā ar vakcīnām un mirstību no COVID. Viens diagramma parāda līniju diagrammu, kurā salīdzināti mirstības rādītāji starp vakcinētajiem un nevakcinētajiem cilvēkiem vecumā no 10 līdz 59 gadiem. Diagramma parāda, ka nevakcinētajiem pastāvīgi ir zemāks mirstības līmenis. Kas šeit notiek?  

Problēma ir līdzīga tai, ko mēs redzam ar vidējiem rādītājiem. Saucējs šajā gadījumā ir indivīdu skaits katrā vecuma grupā. Diagrammā ir apvienotas grupas, kurām ir dažādi rezultāti. Ja atsevišķi aplūkojam vecāku vecuma grupu, 50-59 gadi, redzams, ka vakcinētajiem maksā labāk. Tāpat, ja mēs skatāmies uz 10-49, mēs arī redzam, ka vakcinētie iet labāk. Paradoksāli, bet, aplūkojot kombinēto komplektu, šķiet, ka nevakcinētajiem ir sliktāks rezultāts. Tādā veidā jūs varat pamatot pretējus argumentus, izmantojot datus.

Dati ir neobjektīvi

Datiem ne vienmēr var uzticēties. Pat zinātnieku aprindās vairāk nekā trešdaļa aptaujāto pētnieku atzina "apšaubāma pētniecības prakse."  Citu krāpšanas detektīvs saka: "Ļoti iespējams, ka datos — tabulās, līniju diagrammās, secības datos ir daudz vairāk krāpšanas [- nekā mēs patiesībā atklājam]. Ikviens, kas sēž pie sava virtuves galda, var ievietot dažus skaitļus izklājlapā un izveidot līniju diagrammu, kas izskatās pārliecinoši.

Šis pirmais piemērs izskatās, ka kāds to izdarīja. Es nesaku, ka tā ir krāpšana, taču kā aptauja tā vienkārši neģenerē datus, kas palīdzētu pieņemt apzinātu lēmumu. Izskatās, ka aptaujā respondentiem tika uzdots jautājums par viņu viedokli par degvielas uzpildes stacijas kafiju vai kādu citu aktuālu notikumu. 

  1. Superb 
  2. Liels
  3. Ļoti labas 

Esmu apgriezis Twitter ziņu, lai noņemtu atsauces uz vainīgo pusi, taču šī ir visa aptaujas gala rezultātu diagramma. Šādas aptaujas nav nekas neparasts. Acīmredzot jebkura diagramma, kas izveidota no datiem, kas iegūti no atbildēm, parādīs, ka attiecīgo kafiju nedrīkst palaist garām.  

Problēma ir tāda, ka, ja jums būtu sniegta šī aptauja un jūs neatradāt atbildi, kas atbilst jūsu domām, jūs izlaistu aptauju. Tas var būt ārkārtējs piemērs tam, kā var izveidot neuzticamus datus. Tomēr slikta aptauja var radīt mazāk atbilžu, un tiem, kas atbild, ir tikai viens viedoklis, tas ir tikai pakāpes jautājums. Dati ir neobjektīvi.

Šis otrais datu novirzes piemērs ir no failiem "Sliktākie COVID 19 maldinošie grafiki. " 

Atkal, tas ir smalks un nav pilnīgi acīmredzams. Joslu diagramma parāda vienmērīgu — gandrīz pārāk vienmērīgu pozitīvo COVID-19 gadījumu procentuālās daļas samazināšanos laika gaitā Floridas apgabalā. Varētu viegli izdarīt secinājumu, ka gadījumu skaits samazinās. Tas ir lieliski, vizualizācija precīzi attēlo datus. Problēma ir datos. Tātad, tas ir mānīgāks aizspriedums, jo jūs to nevarat redzēt. Tas ir iestrādāts datos. Jautājumi, kas jums jāuzdod, ietver, kurš tiek pārbaudīts? Citiem vārdiem sakot, kāds ir saucējs jeb iedzīvotāju skaits, no kuriem mēs skatāmies procentos. Tiek pieņemts, ka tā ir visa populācija vai vismaz reprezentatīva izlase.

Taču šajā periodā šajā novadā pārbaudes tika veiktas tikai ierobežotam cilvēku skaitam. Viņiem bija jābūt ar COVID līdzīgiem simptomiem, vai arī viņi nesen bija ceļojuši uz valsti, kas iekļauta karsto punktu sarakstā. Turklāt rezultātus mulsina fakts, ka tika ieskaitīts katrs pozitīvais tests un katrs negatīvais tests. Parasti, kad indivīda tests ir pozitīvs, viņi testēja vēlreiz, kad vīruss bija izgājis savu gaitu, un rezultāts bija negatīvs. Tātad savā ziņā katram pozitīvajam gadījumam ir negatīvs testa gadījums, kas to atceļ. Lielākā daļa testu ir negatīvi, un tika ieskaitīti katra indivīda negatīvie testi. Varat redzēt, ka dati ir neobjektīvi un nav īpaši noderīgi lēmumu pieņemšanai. 

AI ievade un apmācība ir neobjektīva

Ir vismaz divi veidi, kā AI var novest pie neobjektīviem rezultātiem: sākot ar neobjektīviem datiem vai izmantojot neobjektīvus algoritmus derīgu datu apstrādei.  

Neobjektīva ievade

Daudziem no mums ir iespaids, ka mākslīgajam intelektam var uzticēties skaitļu noteikšanai, tā algoritmu piemērošanai un uzticamai datu analīzei. Mākslīgais intelekts var būt tikai tik gudrs, cik tas ir apmācīts. Ja dati, uz kuriem tas tiek apmācīts, ir nepilnīgi, arī rezultātiem vai secinājumiem nevarēs uzticēties. Līdzīgi kā iepriekš minētajā gadījumā par aptaujas neobjektivitāti, ir vairāki veidi, kā datus var izmantot neobjektīvs mašīnmācībā:.  

  • Izlases novirze — apmācības datu kopa nav reprezentatīva visai populācijai.
  • Izslēgšanas novirze — dažreiz tie, kas šķiet novirzīti, faktiski ir derīgi vai arī mēs novelkam robežu tam, ko iekļaut (pasta indeksus, datumus utt.).
  • Mērījumu novirze — vienmēr ir jāmēra no meniska centra un apakšas, piemēram, mērot šķidrumus mērkolbās vai mēģenēs (izņemot dzīvsudrabu).
  • Atgādināt neobjektivitāti – kad pētījums ir atkarīgs no dalībnieku atmiņas.
  • Novērotāju neobjektivitāte – zinātnieki, tāpat kā visi cilvēki, vairāk tiecas redzēt to, ko viņi gaida.
  • Seksistiska un rasistiska aizspriedumi — dzimums vai rase var būt pārāk vai nepietiekami pārstāvēti.  
  • Asociāciju neobjektivitāte – dati pastiprina stereotipus

Lai AI sniegtu ticamus rezultātus, tā apmācības datiem ir jāatspoguļo reālā pasaule. Kā mēs runājām iepriekšējā emuāra rakstā, datu sagatavošana ir ļoti svarīga un tāpat kā jebkurš cits datu projekts. Neuzticami dati var iemācīt mašīnmācīšanās sistēmām nepareizu mācību, un rezultātā tiks izdarīts nepareizs secinājums. Tas nozīmē: "Visi dati ir neobjektīvi. Tā nav paranoja. Tas ir fakts.” – Dr Sandživs M. Narajans, Stenfordas Universitātes Medicīnas skola.

Neobjektīvu datu izmantošana apmācībai ir izraisījusi vairākas ievērojamas AI kļūmes. (Piemēri šeit un šeit, izpēte šeit..)

Neobjektīvi algoritmi

Algoritms ir noteikumu kopums, kas pieņem ievadi un izveido izvadi, lai atbildētu uz biznesa problēmu. Tie bieži ir labi definēti lēmumu koki. Algoritmi jūtas kā melnās kastes. Bieži vien neviens nav pārliecināts, kā viņi strādā, pat ne uzņēmumi, kas tos izmanto. Ak, un tie bieži vien ir patentēti. To noslēpumainais un sarežģītais raksturs ir viens no iemesliem, kāpēc neobjektīvi algoritmi ir tik mānīgi. . 

Apsveriet mākslīgā intelekta algoritmus medicīnā, cilvēkresursos vai finansēs, kas ņem vērā rasi. Ja rase ir faktors, algoritms nevar būt rasistiski akls. Tas nav teorētiski. Šādas problēmas ir atklātas reālajā pasaulē, izmantojot AI in darbā, brauciens, aizdevuma pieteikumss, un nieru transplantācijas

Būtība ir tāda, ka, ja jūsu dati vai algoritmi ir slikti, ir sliktāki par nederīgiem, tie var būt bīstami. Ir tāda lieta kā "algoritmiskais audits”. Mērķis ir palīdzēt organizācijām identificēt ar algoritmu saistītos iespējamos riskus, kas saistīti ar godīgumu, neobjektivitāti un diskrimināciju. citur, Facebook izmanto AI, lai cīnītos pret neobjektivitāti AI.

Cilvēki ir neobjektīvi

Mums ir cilvēki abās vienādojuma pusēs. Cilvēki gatavo analīzi un cilvēki saņem informāciju. Ir pētnieki un ir lasītāji. Jebkurā saziņā var rasties pārraides vai uztveršanas problēmas.

Ņemiet, piemēram, laikapstākļus. Ko nozīmē “iespējams lietus”? Pirmkārt, ko domā meteorologi, sakot, ka ir iespējams lietus? Saskaņā ar ASV valdības teikto National Weather Service, lietus iespēja vai tas, ko viņi sauc par nokrišņu varbūtību (PoP), ir viens no vismazāk saprotamajiem laika prognozes elementiem. Tam ir standarta definīcija: “Nokrišņu varbūtība ir vienkārši statistiskā varbūtība, kas ir par 0.01 collu [sic] no [sic] vairāk nokrišņu noteiktā apgabalā konkrētajā prognozētajā apgabalā norādītajā laika periodā. “Dotais apgabals” ir prognozes apgabals vai broadcast laukums. Tas nozīmē, ka oficiālā nokrišņu iespējamība ir atkarīga no pārliecības, ka kaut kur līs lietus, un no tā, cik procentu apgabalā kļūs mitrs. Citiem vārdiem sakot, ja meteorologs ir pārliecināts, ka prognozētajā apgabalā līs (pārliecība = 100%), tad PoP ir apgabala daļa, kurā būs lietus.  

Parīzes iela; Lietaina diena,Gustave Caillebotte (1848-1894) Čikāgas Mākslas institūta publiskais domēns

Lietus iespēja ir atkarīga gan no pārliecības, gan no platības. Es nezināju, ka. Man ir aizdomas, ka arī citi to nezina. Apmēram 75% iedzīvotāju precīzi nesaprot, kā tiek aprēķināts PoP vai ko tas ir paredzēts attēlot. Tātad, vai mūs apmāna, vai tā ir uztveres problēma. Sauksim to par nokrišņu uztveri. Vai vainojam sinoptiķi? Taisnības labad jāsaka, ka ir daži apjukums arī sinoptiķu vidū. Vienā pārskats, 43% aptaujāto meteorologu teica, ka PoP definīcijā ir ļoti maza konsekvence.

Pati analīze ir neobjektīva

No pieciem ietekmējošiem faktoriem pati analīze var būt visvairāk pārsteidzoša. Zinātniskajos pētījumos, kuru rezultātā tiek publicēts recenzēts raksts, parasti tiek izvirzīta teorija, tiek noteiktas metodes hipotēzes pārbaudei, tiek savākti dati, pēc tam tiek analizēti dati. Tiek nepietiekami novērtēts veiktās analīzes veids un veids, kā tas ietekmē secinājumus. Iekšā papīrs Šī gada sākumā (2022. gada janvārī) publicētajā Starptautiskajā vēža žurnālā autori novērtēja, vai randomizēto kontrolēto pētījumu un retrospektīvo novērošanas pētījumu rezultāti. Viņu atklājumi secināja, ka

Salīdzinošās efektivitātes pētījumos mainot analītisko izvēli, mēs radījām pretējus rezultātus. Mūsu rezultāti liecina, ka daži retrospektīvi novērošanas pētījumi var atklāt, ka ārstēšana uzlabo pacientu rezultātus, savukārt citā līdzīgā pētījumā tas var atklāties, vienkārši pamatojoties uz analītiskām izvēlēm.

Ja agrāk, lasot zinātniskā žurnāla rakstu, jūs, iespējams, domājāt, ka rezultāti vai secinājumi ir saistīti tikai ar datiem. Tagad šķiet, ka rezultāti vai tas, vai sākotnējā hipotēze tiek apstiprināta vai atspēkota, var būt atkarīgi arī no analīzes metodes.

Citu studēt atrada līdzīgus rezultātus. Raksts, Daudzi analītiķi, viena datu kopa: padarīt pārskatāmu, kā analītiskās izvēles atšķirības ietekmē rezultātus, apraksta, kā viņi sniedza vienu un to pašu datu kopu 29 dažādām komandām, lai tās analizētu. Datu analīze bieži tiek uzskatīta par stingru, labi definētu procesu, kas noved pie viena secinājuma.  

Neskatoties uz metodiķu aizrādījumiem, ir viegli nepamanīt, ka rezultāti var būt atkarīgi no izvēlētās analītiskās stratēģijas, kas pati par sevi ir piesātināta ar teoriju, pieņēmumiem un izvēles punktiem. Daudzos gadījumos ir daudzas saprātīgas (un daudzas nepamatotas) pieejas datu novērtēšanai, kas attiecas uz pētījuma jautājumu.

Pētnieki apkopoja datu analīzi un nonāca pie secinājuma, ka visi pētījumi ietver subjektīvus lēmumus, tostarp to, kāda veida analīzi izmantot, kas var ietekmēt pētījuma gala rezultātu.

Citu cilvēku ieteikums pētnieks kas analizēja iepriekš minēto pētījumu, ir jābūt piesardzīgam, pieņemot lēmumus vai izdarot secinājumus, izmantojot vienu dokumentu.

Neobjektivitātes novēršana pakalpojumā Analytics

Tas vienkārši ir domāts kā brīdinājuma stāsts. Zināšanas var pasargāt mūs no krāpniecības. Jo labāk apzināsim iespējamās metodes, ko skeneris varētu izmantot, lai mūs apmānītu, jo mazāka ir iespēja, ka mūs pieķers, teiksim, kabatzagļa nepareiza virzība vai raita runa par Ponci lugas. Tā tas ir ar iespējamo aizspriedumu izpratni un atpazīšanu, kas ietekmē mūsu analīzi. Ja apzināmies iespējamās ietekmes, mēs varētu labāk prezentēt stāstu un galu galā pieņemt labākus lēmumus.  

BI/AnalyticsUncategorized
Atbrīvojieties no saviem ieskatiem: Analytics pavasara tīrīšanas ceļvedis

Atbrīvojieties no saviem ieskatiem: Analytics pavasara tīrīšanas ceļvedis

Atbrīvojieties no jūsu ieskatiem Analīzes ceļvedis Pavasara tīrīšana Jaunais gads sākas ar sprādzienu; tiek izveidoti un rūpīgi pārbaudīti gada beigu pārskati, un pēc tam visi pieņem konsekventu darba grafiku. Tā kā dienas kļūst garākas un koki un ziedi zied,...

Lasīt vairāk