Minciuna Analytics

by August 31, 2022BI/Analiticăcomentarii 0

Minciuna Analytics

Prejudiciul analizei

 

Mark Twain a spus în mod discutabil ceva de genul: „Există trei feluri de minciuni: minciuni, minciuni blestemate și Google Analytics. " 

Considerăm de la sine înțeles că analiza ne oferă informații utile și care pot fi acționate. Ceea ce adesea nu realizăm este modul în care propriile noastre părtiniri și ale altora influențează răspunsurile pe care ni le oferă chiar și cele mai sofisticate programe și sisteme. Uneori, putem fi manipulați necinstit, dar, mai frecvent, pot fi prejudecăți subtile și inconștiente care se strecoară în analizele noastre. Motivația din spatele analizei părtinitoare este de mai multe ori. Uneori, rezultatele imparțiale pe care le așteptăm de la știință sunt influențate de 1) alegeri subtile în modul în care sunt prezentate datele, 2) date inconsecvente sau nereprezentative, 3) modul în care sunt antrenate sistemele AI, 4) ignoranța, incompetența cercetătorilor sau a altora care încearcă a spune povestea, 5) analiza în sine.    

Prezentarea este părtinitoare

Unele minciuni sunt mai ușor de depistat decât altele. Când știi ce să cauți, poți detecta mai ușor potențialul grafice și diagrame înșelătoare. 

Există cel puțin cinci moduri de a afișa în mod înșelător datele: 1) Afișați un set limitat de date, 2). Afișați corelații fără legătură, 3) Afișați datele incorect, 4) Afișați datele în mod neconvențional sau 5). Afișați datele supra-simplificate.

Afișați un set limitat de date

Limitarea datelor sau selectarea manuală a unei secțiuni non-aleatoare a datelor poate spune adesea o poveste care nu este în concordanță cu imaginea de ansamblu. Eșantionarea greșită, sau culesul cireșelor, este atunci când analistul folosește un eșantion nereprezentator pentru a reprezenta un grup mai mare. 

În martie 2020, Departamentul de Sănătate Publică din Georgia a publicat acest grafic ca parte a raportului zilnic de stare. De fapt, ridică mai multe întrebări decât răspunde.  

Unul dintre lucrurile care lipsește este contextul. De exemplu, ar fi util să știm care este procentul populației pentru fiecare grupă de vârstă. O altă problemă cu diagrama circulară cu aspect simplu este grupele de vârstă inegale. 0-17 are 18 ani, 18-59 are 42, 60+ este deschis, dar are în jur de 40 de ani. Concluzia, având în vedere numai acest grafic, este că majoritatea cazurilor sunt în grupa de vârstă 18-59 de ani. Grupa de vârstă de peste 60 de ani pare să fie mai puțin afectată de cazurile de COVID. Dar aceasta nu este toată povestea.

Pentru comparație, acest set de date diferit pe site-ul CDC prezintă cazurile de COVID în funcție de grupă de vârstă cu date suplimentare despre procentul populației din SUA care se află în fiecare interval de vârstă.  

E mai bine asa. Avem mai mult context. Putem observa că grupele de vârstă 18-29, 30-39, 40-49 au toate un procent de cazuri mai mare decât procentul grupei de vârstă în populație. Există încă câteva grupe de vârstă inegale. De ce este 16-17 o grupă de vârstă separată? Totuși, aceasta nu este toată povestea, dar experții au scris rubrici, au făcut predicții și mandate cu mai puțin de atât. Evident, cu COVID, există multe variabile, pe lângă vârsta, care afectează luarea în considerare a unui caz pozitiv: starea vaccinării, disponibilitatea testelor, numărul de ori testate, comorbiditățile și multe altele. Numărul de cazuri, în sine, oferă o imagine incompletă. Majoritatea experților analizează, de asemenea, Numărul de decese sau procentele de decese la 100,000 de locuitori sau cazurile de deces pentru a vedea modul în care COVID-ul afectează fiecare grup de vârstă.

Afișați corelații fără legătură

Evident, există o corelație puternică între cheltuielile SUA pentru știință, spațiu și tehnologie și numărul de sinucideri prin spânzurare, strangulare și sufocare. Corelația este de 99.79%, aproape o potrivire perfectă.  

Cine, totuși, ar argumenta că acestea sunt într-un fel legate sau că una o cauzează pe cealaltă? Există și alte exemple mai puțin extreme, dar nu mai puțin false. Există o corelație puternică similară între Letters in Winning Word of Scripps National Spelling Bee și numărul de persoane ucise de păianjeni veninoși. Coincidență? Tu decizi.

O altă modalitate de a grafic aceste date, care poate fi mai puțin înșelătoare, ar fi includerea zero pe ambele axe Y.

Afișați datele în mod incorect

De la Cum să afișați prost datele, statul american Georgia a prezentat primele 5 județe cu cel mai mare număr de cazuri confirmate de COVID-19.

Pare legal, nu? Există în mod clar o tendință de scădere a cazurilor confirmate de COVID-19. Poți citi axa X? Axa X reprezintă timpul. De obicei, datele vor crește de la stânga la dreapta. Aici, vedem o mică călătorie în timp pe axa X: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

Aștepta? Ce? Axa X nu este sortată cronologic. Deci, oricât de frumos ar părea tendința, nu putem trage nicio concluzie. Dacă datele sunt comandate, barele pentru numărul de cazuri arată mai mult un model cu dinți de ferăstrău decât orice fel de tendință.

Soluția ușoară aici este să sortați datele așa cum o face un calendar.

Afișați datele în mod neconvențional

Suntem cu toții ocupați. Creierul nostru ne-a învățat să facem judecăți rapide bazate pe presupuneri care au fost consecvente în lumea noastră. De exemplu, fiecare grafic pe care l-am văzut vreodată arată axele x și y care se întâlnesc la zero sau valorile cele mai mici. Privind pe scurt această diagramă, ce concluzii puteți trage despre efectul Floridei „Respectați legea de bază.”? Mi-e rușine să recunosc, dar acest grafic m-a păcălit la început. Ochiul tău este atras în mod convenabil de textul și săgeata din mijlocul graficului. În jos este sus în acest grafic. Poate că nu este o minciună – datele sunt întocmite acolo. Dar, trebuie să cred că este menit să înșele. Dacă nu l-ați văzut încă, zero pe axa y este în partea de sus. Deci, pe măsură ce datele scad, asta înseamnă mai multe decese. Acest grafic arată că numărul de crime cu arme de foc a crescut după 2005, indicat de tendința care merge jos.

Afișați datele supra-simplificate

Un exemplu de simplificare excesivă a datelor poate fi văzut atunci când analiștii profită de Paradoxul lui Simpson. Acesta este un fenomen care apare atunci când datele agregate par să demonstreze o concluzie diferită decât atunci când sunt separate în subseturi. Această capcană este ușor de căzut atunci când ne uităm la procente agregate la nivel înalt. Una dintre cele mai clare ilustrații ale Paradoxului lui Simpson la locul de muncă este legată de medii de bataie.  

Aici vedem că Derek Jeter are o medie generală la bataie mai mare decât David Justice pentru sezoanele 1995 și 1996. Paradoxul apare atunci când ne dăm seama că Justiția l-a învins pe Jeter la media la bataie în ambii acești ani. Dacă te uiți cu atenție, are sens când îți dai seama că Jeter a avut de aproximativ 4 ori mai multe bătăi (numitorul) în 1996, la o medie mai mică de 007 în 1996. În timp ce, Justiția a avut de aproximativ 10 ori numărul de la bâte la doar . 003 medie mai mare în 1995.

Prezentarea pare simplă, dar Paradoxul lui Simpson, cu bună știință sau fără să vrea, a condus la concluzii incorecte. Recent, au existat exemple de Paradoxul lui Simpson în știri și pe rețelele de socializare legate de vaccinuri și mortalitatea COVID. unu diagramă prezintă un grafic cu linii care compară ratele de deces între vaccinați și nevaccinați pentru persoanele cu vârsta cuprinsă între 10 și 59 de ani. Graficul demonstrează că persoanele nevaccinate au în mod constant o rată de mortalitate mai mică. Ce se petrece aici?  

Problema este similară cu cea pe care o vedem cu mediile de bataie. Numitorul în acest caz este numărul de indivizi din fiecare grupă de vârstă. Graficul combină grupuri care au rezultate diferite. Dacă ne uităm la grupa de vârstă mai în vârstă, 50-59 de ani, separat, vedem că cei vaccinați se descurcă mai bine. La fel, dacă ne uităm la 10-49, vedem și că cei vaccinați ies mai bine. Paradoxal, când se uită la setul combinat, cei nevaccinați par să aibă un rezultat mai rău. În acest fel, poți să argumentezi argumente opuse folosind datele.

Datele sunt părtinitoare

Datele nu pot fi întotdeauna de încredere. Chiar și în comunitatea științifică, peste o treime dintre cercetătorii chestionați au recunoscut „practici de cercetare discutabile”.  O alta detectiv de fraudă de cercetare spune: „Foarte probabil, există mult mai multă fraudă în ceea ce privește datele – tabele, grafice cu linii, date de secvențiere [– decât descoperim de fapt]. Oricine stă la masa din bucătărie poate să pună niște numere într-o foaie de calcul și să facă un grafic cu linii care pare convingător.”

Mai întâi exemplu se pare că cineva a făcut exact asta. Nu spun că aceasta este o fraudă, dar ca sondaj, pur și simplu nu generează date care să contribuie la o decizie informată. Se pare că sondajul a întrebat respondenții despre opinia lor despre cafeaua din benzinărie sau despre un alt eveniment actual relevant. 

  1. Superb 
  2. Mare
  3. Foarte bine 

Am tăiat postarea de pe Twitter pentru a elimina referințele la partea vinovată, dar acesta este întregul grafic al rezultatelor finale ale sondajului. Sondajele de genul acesta nu sunt neobișnuite. Evident, orice diagramă creată din datele rezultate din răspunsuri va arăta că cafeaua în cauză nu trebuie ratată.  

Problema este că, dacă ți s-a oferit acest sondaj și nu ai găsit un răspuns care să se potrivească gândirii tale, ai sări peste sondaj. Acesta poate fi un exemplu extrem de cum pot fi create date nedemne de încredere. Cu toate acestea, proiectarea slabă a sondajului poate duce la mai puține răspunsuri, iar cei care răspund au o singură opinie, este doar o chestiune de grad. Datele sunt părtinitoare.

Acest al doilea exemplu de părtinire a datelor este din fișierele „Cele mai grave grafice înșelătoare COVID 19. " 

Din nou, acest lucru este subtil și nu complet evident. Graficul cu bare arată o scădere lină – aproape prea lină – a procentului de cazuri pozitive de COVID-19 de-a lungul timpului pentru un județ din Florida. Ai putea trage cu ușurință concluzia că cazurile sunt în scădere. Este grozav, vizualizarea reprezintă cu exactitate datele. Problema este in date. Deci, este o părtinire mai insidioasă pentru că nu o poți vedea. Este inclus în date. Întrebările pe care trebuie să le puneți includ: cine este testat? Cu alte cuvinte, care este numitorul sau populația căreia ne uităm la un procent. Presupunerea este că este vorba despre întreaga populație, sau cel puțin, un eșantion reprezentativ.

Totuși, în această perioadă, în acest județ, s-au dat teste doar unui număr limitat de persoane. Trebuiau să aibă simptome asemănătoare COVID sau călătoriseră recent într-o țară de pe lista punctelor fierbinți. În plus, rezultatele confuze este faptul că fiecare test pozitiv a fost numărat și fiecare test negativ a fost numărat. În mod obișnuit, atunci când un individ era testat pozitiv, acesta se testa din nou când virusul și-a urmat cursul și era negativ. Deci, într-un fel, pentru fiecare caz pozitiv, există un caz de testare negativ care îl anulează. Marea majoritate a testelor sunt negative și au fost numărate testele negative ale fiecărui individ. Puteți vedea cum datele sunt părtinitoare și nu sunt deosebit de utile pentru luarea deciziilor. 

Intrarea și antrenamentul AI sunt părtinitoare

Există cel puțin două moduri în care AI poate duce la rezultate părtinitoare: începând cu date părtinitoare sau folosind algoritmi părtinitori pentru a procesa date valide.  

Intrare părtinitoare

Mulți dintre noi avem impresia că AI poate fi de încredere pentru a analiza cifrele, a-și aplica algoritmii și a scoate o analiză fiabilă a datelor. Inteligența artificială poate fi atât de inteligentă pe cât este antrenată. Dacă datele pe care este antrenat sunt imperfecte, nici rezultatele sau concluziile nu vor putea fi de încredere. Similar cu cazul de mai sus al părtinirii sondajului, există o serie de moduri în care datele pot fi părtinitor în învățarea automată:.  

  • Prejudecățile eșantionului – setul de date de instruire nu este reprezentativ pentru întreaga populație.
  • Prejudecăți de excludere – uneori, ceea ce par a fi valori aberante sunt de fapt valide sau, în cazul în care tragem linie cu privire la ceea ce să includem (coduri poștale, date etc.).
  • Prejudecăți de măsurare – convenția este de a măsura întotdeauna din centrul și partea de jos a meniscului, de exemplu, atunci când se măsoară lichide în baloane volumetrice sau eprubete (cu excepția mercurului).
  • Prejudecățile de reamintire – când cercetarea depinde de memoria participanților.
  • Prejudecățile observatorului – oamenii de știință, ca toți oamenii, sunt mai înclinați să vadă ceea ce se așteaptă să vadă.
  • Prejudecăți sexiste și rasiste – sexul sau rasa pot fi supra sau subreprezentate.  
  • Prejudecăți de asociere – datele întăresc stereotipurile

Pentru ca AI să ofere rezultate fiabile, datele sale de antrenament trebuie să reprezinte lumea reală. După cum am discutat într-un articol anterior de blog, pregătirea datelor este critică și ca orice alt proiect de date. Datele nesigure pot învăța sistemele de învățare automată lecția greșită și vor duce la o concluzie greșită. Acestea fiind spuse, „Toate datele sunt părtinitoare. Aceasta nu este paranoia. Acesta este un fapt.” – Dr. Sanjiv M. Narayan, Școala de Medicină a Universității Stanford.

Utilizarea datelor părtinitoare pentru antrenament a dus la o serie de eșecuri notabile ale AI. (Exemple aici și aici, cercetare aici..)

Algoritmi părtinși

Un algoritm este un set de reguli care acceptă o intrare și creează rezultate pentru a răspunde unei probleme de afaceri. Sunt adesea arbori de decizie bine definiți. Algoritmii par ca niște cutii negre. Nimeni nu este sigur cum funcționează, deseori, nici măcar companiile care le folosesc. Ah, și sunt adesea proprietare. Natura lor misterioasă și complexă este unul dintre motivele pentru care algoritmii părtinitori sunt atât de insidioși. . 

Luați în considerare algoritmii AI în medicină, resurse umane sau finanțe care iau în considerare rasa. Dacă rasa este un factor, algoritmul nu poate fi orb din punct de vedere rasial. Acest lucru nu este teoretic. Probleme ca acestea au fost descoperite în lumea reală folosind AI angajare, transport-share, cerere de împrumuts, i transplanturi de rinichi

Concluzia este că, dacă datele sau algoritmii dvs. sunt proai, sunt mai rău decât inutili, pot fi periculoși. Există așa ceva ca un „audit algoritmic.” Scopul este de a ajuta organizațiile să identifice potențialele riscuri legate de algoritm în ceea ce privește corectitudinea, părtinirea și discriminarea. În altă parte, Facebook folosește AI pentru a lupta împotriva părtinirii AI.

Oamenii sunt părtinitori

Avem oameni de ambele părți ale ecuației. Oamenii pregătesc analiza și oamenii primesc informațiile. Există cercetători și sunt cititori. În orice comunicare, pot apărea probleme la transmisie sau recepție.

Luați vremea, de exemplu. Ce înseamnă „o șansă de ploaie”? În primul rând, la ce se referă meteorologii când spun că există șanse de ploaie? Potrivit guvernului SUA Serviciul Național Meteo, o șansă de ploaie, sau ceea ce ei numesc probabilitatea precipitațiilor (PoP), este unul dintre elementele cel mai puțin înțelese dintr-o prognoză meteo. Are o definiție standard: „Probabilitatea precipitațiilor este pur și simplu o probabilitate statistică de 0.01″ inch [sic] de [sic] mai mult de precipitații într-o anumită zonă din zona de prognoză dată în perioada de timp specificată.” „Zona dată” este zona de prognoză sau broadzona turnata. Asta înseamnă că probabilitatea oficială de precipitații depinde de încrederea că va ploua undeva în zonă și de procentul din zonă care se va uda. Cu alte cuvinte, dacă meteorologul este încrezător că va ploua în zona de prognoză (Încredere = 100%), atunci PoP reprezintă porțiunea din zonă care va primi ploi.  

Strada Parisului; Zi ploioasa,Gustave Caillebotte (1848-1894) Institutul de Artă din Chicago Public Domain

Șansa de ploaie depinde atât de încredere, cât și de zonă. Nu stiam asta. Bănuiesc că nici alții nu știu asta. Aproximativ 75% din populație nu înțelege cu exactitate cum este calculat PoP sau ce este menit să reprezinte. Deci, suntem păcăliți sau este aceasta o problemă de percepție. Să-i spunem percepția precipitațiilor. Dăm vina pe meteorologi? Pentru a fi corect, există unele confuzie și printre meteorologii. Într-una studiu, 43% dintre meteorologii chestionați au spus că există foarte puțină consecvență în definiția PoP.

Analiza în sine este părtinitoare

Dintre cei cinci factori de influență, analiza în sine poate fi cea mai surprinzătoare. În cercetarea științifică care are ca rezultat publicarea unei lucrări revizuite, de obicei se emite o teorie, se definesc metode de testare a ipotezei, se colectează datele, apoi se analizează datele. Tipul de analiză care se face și modul în care se face este subapreciat în modul în care afectează concluziile. Într-o hârtie publicat la începutul acestui an (ianuarie 2022), în International Journal of Cancer, autorii au evaluat dacă rezultatele studiilor controlate randomizate și ale studiilor observaționale retrospective. Concluziile lor au concluzionat că,

Variind opțiunile analitice în cercetarea eficienței comparative, am generat rezultate contrare. Rezultatele noastre sugerează că unele studii observaționale retrospective ar putea găsi că un tratament îmbunătățește rezultatele pentru pacienți, în timp ce un alt studiu similar poate descoperi că nu, pur și simplu pe baza alegerilor analitice.

În trecut, când citești un articol de jurnal științific, dacă ești ca mine, s-ar putea să te fi crezut că rezultatele sau concluziile sunt toate despre date. Acum, se pare că rezultatele sau dacă ipoteza inițială este confirmată sau infirmată pot depinde și de metoda de analiză.

O alta studiu găsit rezultate similare. Articolul, Mulți analiști, un singur set de date: transparența modului în care variațiile în alegerile analitice afectează rezultatele, descrie modul în care au oferit același set de date la 29 de echipe diferite pentru a le analiza. Analiza datelor este adesea văzută ca un proces strict, bine definit, care duce la o singură concluzie.  

În ciuda remonstrărilor metodologilor, este ușor de trecut cu vederea faptul că rezultatele pot depinde de strategia analitică aleasă, care este în sine impregnată de teorie, presupuneri și puncte de alegere. În multe cazuri, există multe abordări rezonabile (și multe nerezonabile) pentru evaluarea datelor care se referă la o întrebare de cercetare.

Cercetătorii au folosit analiza datelor și au ajuns la concluzia că toate cercetările includ decizii subiective – inclusiv ce tip de analiză să folosească – care pot afecta rezultatul final al studiului.

Recomandarea altuia cercetător cine a analizat studiul de mai sus este să fie precaut atunci când folosește o singură lucrare în luarea deciziilor sau în tragerea concluziilor.

Abordarea părtinirii în Analytics

Aceasta este pur și simplu menită să fie o poveste de avertizare. Cunoașterea ne poate proteja de a fi absorbiți de escrocherii. Cu cât este mai conștient de posibilele metode pe care le-ar putea folosi un scaner pentru a ne păcăli, cu atât este mai puțin probabil să fim prinși, să zicem, de direcția greșită a unui hoț de buzunare sau de vorbirea lină a unei piese de Ponzi. Așa se întâmplă cu înțelegerea și recunoașterea potențialelor părtiniri care ne afectează analiza. Dacă suntem conștienți de potențialele influențe, s-ar putea să putem prezenta mai bine povestea și, în cele din urmă, să luăm decizii mai bune.  

BI/AnaliticăFără categorie
De ce Microsoft Excel este instrumentul de analiză numărul 1
De ce este Excel instrumentul de analiză numărul 1?

De ce este Excel instrumentul de analiză numărul 1?

  Este Ieftin și Ușor. Software-ul pentru foile de calcul Microsoft Excel este probabil deja instalat pe computerul utilizatorului de afaceri. Și mulți utilizatori de astăzi au fost expuși la software-ul Microsoft Office încă din liceu sau chiar mai devreme. Răspunsul acesta neclintit cu privire la...

Citeste mai mult

BI/AnaliticăFără categorie
Eliberați-vă cunoștințele: un ghid pentru curățarea de primăvară Analytics

Eliberați-vă cunoștințele: un ghid pentru curățarea de primăvară Analytics

Eliberați-vă cunoștințele Un ghid pentru Analytics Curățenia de primăvară Noul an începe cu explozie; rapoartele de sfârșit de an sunt create și analizate, iar apoi toată lumea se stabilește într-un program de lucru consecvent. Pe măsură ce zilele devin mai lungi și copacii și florile înfloresc,...

Citeste mai mult