Ngabohong Analytics

by Aug 31, 2022BI/Analyticskoméntar 0

Ngabohong Analytics

Bias Analisis

 

Mark Twain debatably ngomong hal kawas, "Aya tilu rupa bohong: bohong, bohong damned jeung analytics. " 

Kami nganggap yén analitik masihan kami wawasan anu tiasa dianggo. Anu sering urang henteu sadar nyaéta kumaha bias urang sorangan sareng batur mangaruhan jawaban anu dipasihkeun ku parangkat lunak sareng sistem anu paling canggih. Sakapeung, urang bisa jadi dimanipulasi dishonestly, tapi, leuwih ilahar, éta bisa jadi biases halus tur pingsan nu creep kana analytics urang. Motivasi balik analytics bias nyaeta manyfold. Kadang-kadang hasil anu teu kaditukan anu urang ngarepkeun tina élmu dipangaruhan ku 1) pilihan anu halus dina kumaha data dibere, 2) data anu henteu konsisten atanapi henteu ngawakilan, 3) kumaha sistem AI dilatih, 4) kabodoan, incompetence peneliti atanapi anu sanés nyobian. nyaritakeun carita, 5) analisis sorangan.    

Presentasina bias

Sababaraha bohong langkung gampang ditingali tibatan anu sanés. Nalika anjeun terang naon anu dicarioskeun anjeun tiasa langkung gampang ngadeteksi poténsial grafik jeung grafik nyasabkeun. 

Aya sahanteuna lima cara pikeun misleadingly mintonkeun data: 1) Témbongkeun set data kawates, 2). Némbongkeun korélasi nu teu patali, 3) Némbongkeun data sacara teu akurat, 4) Némbongkeun data sacara teu konvensional, atawa 5). Témbongkeun data leuwih-disederhanakeun.

Témbongkeun set data kawates

Ngawatesan data, atawa leungeun milih bagian non-acak data mindeng bisa ngabejaan carita nu teu konsisten jeung big picture. Bad sampling, atawa picking céri, nyaéta nalika analis ngagunakeun sampel non-wawakil pikeun ngagambarkeun grup nu leuwih gede. 

Dina Maret 2020, Departemen Kaséhatan Umum Géorgia diterbitkeun bagan ieu salaku bagian tina laporan status poean na. Ieu sabenerna raises langkung patarosan ti eta ngajawab.  

Salah sahiji hal anu leungit nyaéta konteks. Contona, bakal mantuan uninga naon persentase populasi pikeun tiap grup umur. Isu sejen kalawan bagan pai basajan-pilari nyaéta grup umur henteu rata. The 0-17 boga 18 taun, 18-59 boga 42, 60+ geus kabuka réngsé, tapi boga sabudeureun 40 taun. Kacindekan, nunjukkeun bagan ieu nyalira, nyaéta seuseueurna kasus aya dina kelompok umur 18-59 taun. Kelompok umur 60+ taun sigana kirang parah kapangaruhan ku kasus COVID. Tapi ieu sanés sadayana carita.

Pikeun babandingan, ieu set data béda dina Situs wéb CDC bagan kasus COVID dumasar kana kelompok umur kalayan data tambahan ngeunaan persentase Populasi AS anu aya dina unggal rentang umur.  

Ieu hadé. Urang gaduh langkung konteks. Urang tiasa ningali yén kelompok umur 18-29, 30-39, 40-49 sadayana ngagaduhan persentase kasus anu langkung luhur tibatan persentase kelompok umur dina populasi. Masih aya sababaraha golongan umur anu henteu rata. Naha 16-17 grup umur anu misah? Masih ieu teu sakabeh carita, tapi pundits geus ditulis kolom, dijieun prediksi jeung mandates on kirang ti ieu. Jelas, sareng COVID, aya seueur variabel salian umur anu mangaruhan diitung salaku kasus positip: status vaksinasi, kasadiaan tés, sabaraha kali diuji, komorbiditas, sareng seueur anu sanésna. Jumlah kasus, sorangan, nyadiakeun gambar teu lengkep. Kaseueuran ahli ogé ningali Jumlah maotna, atanapi persentase maotna per 100,000 penduduk, atanapi kasus-fatalities pikeun ningali kumaha COVID mangaruhan unggal kelompok umur.

Témbongkeun korelasi nu teu patali

Jelas, aya hiji korelasi kuat antara belanja AS pikeun sains, angkasa, sareng téknologi sareng jumlah Bunuh diri ku cara gantung, cekik sareng sesak napas. Korelasi nyaéta 99.79%, ampir cocog.  

Saha, sanaos, anu bakal ngajantenkeun yén ieu aya hubunganana, atanapi anu nyababkeun anu sanés? Aya conto kirang ekstrim sejen, tapi teu kirang spurious. Aya korelasi kuat sarupa antara Hurup dina Winning Word of Scripps National Spelling Bee jeung Jumlah Jalma Dibunuh ku Venomous Spiders. Kabeneran? Anjeun mutuskeun.

Cara séjén pikeun bagan data ieu nu bisa jadi kirang nyasabkeun bakal ngawengku nol dina duanana sumbu-Y.

Témbongkeun data teu akurat

ti Kumaha Témbongkeun Data Bad, Nagara Géorgia AS nampilkeun Top 5 County kalayan Jumlah Kasus COVID-19 Anu Dikonfirmasi Pangageungna.

Sigana legit, katuhu? Jelas aya tren turun tina kasus COVID-19 anu dikonfirmasi. Naha anjeun tiasa maca sumbu X? Sumbu X ngagambarkeun waktu. Ilaharna, kaping bakal ningkat ti kénca ka katuhu. Di dieu, urang ningali perjalanan waktos sakedik dina sumbu X: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

Antosan? Naon? Sumbu X henteu diurutkeun sacara kronologis. Janten, sakumaha saé sapertos tren anu katingali, urang henteu tiasa ngagambar kasimpulan. Upami tanggalna dipesen, bar pikeun jumlah kasus nunjukkeun langkung seueur pola gigi gergaji tibatan tren naon waé.

Cara panggampangna di dieu nyaéta nyortir tanggal sapertos kalénder.

Témbongkeun data unconventionally

Urang sadayana sibuk. Otak urang parantos ngajarkeun urang ngadamel kaputusan gancang dumasar kana asumsi anu konsisten di dunya urang. Contona, unggal grafik Kuring geus kungsi katempo nembongkeun x- jeung y- sumbu pasamoan di enol, atawa nilai panghandapna. Ningali bagan ieu sakeudeung, naon kacindekan anjeun tiasa ngagambar ngeunaan pangaruh Florida "Tahan hukum dasar anjeun."? Kuring isin ngaku, tapi grafik ieu fooled kuring mimitina. Panon anjeun merenah ditarik kana téks sareng panah di tengah grafik. Turun ka luhur dina grafik ieu. Ieu bisa jadi teu bohong - data téh sadayana katuhu aya. Tapi, kuring kudu mikir yén éta dimaksudkeun pikeun nipu. Upami anjeun teu acan ningali éta, nol dina sumbu-y aya di luhur. Janten, sakumaha tren data turun, éta hartosna langkung seueur maotna. bagan ieu nunjukeun yen jumlah murders ngagunakeun senjata api ngaronjat saatos 2005, dituduhkeun ku trend bade turun.

Témbongkeun data leuwih-disederhanakeun

Hiji conto over-nyederhanakeun data bisa ditempo nalika analis ngamangpaatkeun Paradox Simpson. Ieu mangrupikeun fenomena anu lumangsung nalika data agrégat sigana nunjukkeun kacindekan anu béda ti nalika dipisahkeun kana subset. Perangkap ieu gampang digolongkeun nalika ningali persentase agrégat tingkat luhur. Salah sahiji ilustrasi anu paling jelas ngeunaan Paradox Simpson di tempat damel aya hubunganana sareng batting averages.  

Di dieu urang ningali yén Derek Jeter gaduh rata-rata batting langkung luhur tibatan David Justice pikeun musim 1995 sareng 1996. Paradoks asalna nalika urang sadar yén Kaadilan ngaunggulkeun Jeter dina batting rata-rata dua taun éta. Lamun ditilik taliti, ngajadikeun rasa mun anjeun nyadar yén Jeter miboga kasarna 4x leuwih at-bats (nu pangbagi) dina 1996 dina .007 handap rata-rata dina 1996. Padahal, Justice kagungan kasarna 10x jumlah at-bats di wungkul. 003 rata-rata luhur dina taun 1995.

Presentasina katingali lugas, tapi Paradox Simpson, sacara teu disadari, atanapi tanpa disadari, nyababkeun kasimpulan anu salah. Anyar-anyar ieu, aya conto Simpson's Paradox dina warta sareng média sosial anu aya hubunganana sareng vaksin sareng mortalitas COVID. Hiji grapik nembongkeun grafik garis ngabandingkeun angka maot antara divaksinasi jeung unvaccinated pikeun jalma umur 10-59 taun. Bagan nunjukkeun yén anu henteu divaksinasi sacara konsisten ngagaduhan tingkat kematian anu langkung handap. Aya naon di dieu?  

Masalahna sami sareng anu urang tingali kalayan rata-rata batting. Pangbagi dina hal ieu nyaéta jumlah individu dina unggal kelompok umur. Grafikna ngagabungkeun grup anu gaduh hasil anu béda. Lamun urang nempo grup umur heubeul, 50-59 , misah, urang nempo yén ongkos divaksinasi hadé. Kitu ogé, lamun urang nempo 10-49, urang ogé ningali yén ongkos divaksinasi hadé. Paradoks, nalika ningali set gabungan, anu henteu divaksinasi sigana ngagaduhan hasil anu langkung parah. Ku cara kieu, anjeun tiasa ngadamel pasualan pikeun argumen sabalikna nganggo data.

Datana bias

Data teu salawasna bisa dipercaya. Malah dina komunitas ilmiah, leuwih sapertilu peneliti surveyed ngaku "Praktik panalungtikan questionable."  nu lain panipuan panalungtikan detektif nyebutkeun, "Aya pisan kamungkinan leuwih panipuan dina data - tabel, grafik garis, sequencing data [- ti urang sabenerna manggihan]. Saha waé anu linggih di méja dapurna tiasa nempatkeun sababaraha nomer dina hamparan sareng ngadamel grafik garis anu katingalina ngayakinkeun.

ieu mimitina conto Sigana mah batur ngalakukeun kitu. Abdi teu ngaraos nyebutkeun ieu panipuan, tapi sakumaha survéy a, éta ngan teu ngahasilkeun data nu mana wae nu nyumbang ka kaputusan informed. Sigana mah survey naroskeun ka réspondén ngeunaan pendapatna ngeunaan kopi SPBU, atanapi sababaraha acara ayeuna anu relevan. 

  1. luhung 
  2. gede
  3. Saé pisan 

Kuring geus motong pos Twitter pikeun miceun rujukan ka pihak kaliru, tapi ieu téh sakabéh bagan sabenerna hasil ahir survey. Survei sapertos kieu henteu jarang. Jelas, bagan naon waé anu diciptakeun tina data hasil tina réspon bakal nunjukkeun yén kopi anu dimaksud henteu kedah dileungitkeun.  

Masalahna nyaéta upami anjeun parantos dibéré survey ieu sareng henteu mendakan réspon anu cocog sareng pamikiran anjeun, anjeun bakal ngalangkungan survey. Ieu tiasa janten conto ekstrim kumaha data anu teu dipercaya tiasa diciptakeun. Desain survéy goréng, kumaha oge, bisa ngakibatkeun réspon pangsaeutikna sarta maranéhanana anu ngabales ngan boga hiji pamadegan, éta ngan masalah gelar. Datana bias.

Conto kadua bias data ieu tina file "Grafik awon COVID 19 Nyasabkeun. " 

Deui, ieu halus tur teu sagemblengna atra. Grafik bar nunjukkeun lancar - ampir lemes teuing - turunna persentase kasus COVID-19 positip dina waktosna pikeun hiji kabupaten di Florida. Anjeun tiasa sacara gampil narik kacindekan yén kasus turun. Éta hébat, visualisasi akurat ngagambarkeun data. Masalahna aya dina data. Janten, éta bias langkung insidious sabab anjeun teu tiasa ningali éta. Ieu dipanggang kana data. Patarosan anu anjeun kedah naroskeun, kalebet, saha anu diuji? Dina basa sejen, naon pangbagi, atawa populasi nu urang pilari di perséntase. Asumsi nya éta sakabéh populasi, atawa sahenteuna, sampel wawakil.

Nanging, salami periode ieu, di kabupaten ieu, tés ngan ukur dipasihkeun ka sajumlah jalma. Aranjeunna kedah ngagaduhan gejala sapertos COVID, atanapi nembé ngumbara ka nagara dina daptar tempat panas. Salaku tambahan ngabingungkeun hasilna nyaéta kanyataan yén unggal tés positip diitung sareng unggal tés négatip diitung. Biasana, nalika hiji jalma dites positip, aranjeunna bakal nguji deui nalika virus parantos jalanna sareng bakal nguji négatip. Janten, dina harti, pikeun unggal kasus positip, aya kasus tés négatip anu ngabatalkeunana. Seuseueurna tés négatip sareng tés négatip unggal individu diitung. Anjeun tiasa ningali kumaha data bias sareng henteu kapaké pikeun nyandak kaputusan. 

Input sareng Pelatihan AI bias

Sahenteuna aya dua cara AI tiasa ngakibatkeun hasil anu bias: dimimitian ku data bias, atanapi nganggo algoritma bias pikeun ngolah data anu valid.  

Input bias

Seueur diantara urang aya dina kesan yén AI tiasa dipercaya pikeun ngémutan angka, nerapkeun algoritmana, sareng nyiduh analisa data anu dipercaya. Kecerdasan Buatan ngan ukur tiasa pinter sakumaha anu dilatih. Upami data anu dilatihna henteu sampurna, hasilna atanapi kacindekan ogé moal tiasa dipercaya. Sarupa jeung kasus bias survéy di luhur, aya sababaraha cara nu data bisa bias dina pembelajaran mesin:.  

  • Bias sampel - set data latihan henteu ngawakilan sakabeh populasi.
  • Bias pangaluaran - kadang naon anu katingalina outlier saleresna sah, atanapi, dimana urang ngagambar garis dina naon anu kedah dilebetkeun (kode pos, kaping, jsb).
  • Bias pangukuran - konvénsina nyaéta pikeun salawasna ngukur ti tengah sareng handap meniscus, contona, nalika ngukur cair dina labu volumetrik atanapi tabung uji (iwal raksa.)
  • Bias ngelingan - nalika panalungtikan gumantung kana memori pamilon.
  • Bias panitén - élmuwan, sapertos sadayana manusa, langkung condong ningali naon anu aranjeunna ngarepkeun.
  • Bias séksis sareng rasis - jinis kelamin atanapi ras tiasa langkung atanapi kirang diwakilan.  
  • bias asosiasi - data reinforces stereotypes

Pikeun AI mulangkeun hasil anu tiasa dipercaya, data pelatihanna kedah ngagambarkeun dunya nyata. Sakumaha anu parantos dibahas dina tulisan blog sateuacana, persiapan data penting sareng sapertos proyék data anu sanés. Data anu teu dipercaya tiasa ngajarkeun sistem pembelajaran mesin kana pelajaran anu salah sareng bakal nyababkeun kacindekan anu salah. Kitu cenah, "Sadaya data bias. Ieu sanés paranoia. Ieu kanyataan.” – Dr. Sanjiv M. Narayan, Sakola Kadokteran Universitas Stanford.

Ngagunakeun data bias pikeun latihan geus ngabalukarkeun sababaraha kagagalan AI kasohor. (Conto Ieuh jeung Ieuh, Panaliti Ieuh..)

Algoritma bias

Algoritma mangrupikeun sakumpulan aturan anu nampi input sareng nyiptakeun kaluaran pikeun ngajawab masalah bisnis. Aranjeunna nuju sering well-diartikeun tangkal kaputusan. Algoritma ngarasa kawas kotak hideung. Teu aya anu yakin kumaha aranjeunna damel, sering, bahkan henteu perusahaan anu ngagunakeunana. Oh, sarta aranjeunna mindeng proprietary. Sifatna anu misterius sareng kompleks mangrupikeun salah sahiji alesan kunaon algoritma bias janten insidious. . 

Pertimbangkeun algoritma AI dina ubar, SDM atanapi kauangan anu nganggap balapan. Upami ras mangrupikeun faktor, algoritma henteu tiasa buta ras. Ieu teu téoritis. Masalah sapertos ieu parantos kapanggih di dunya nyata nganggo AI Ngiring, numpak-bagi, aplikasi injeumankeusik cangkok ginjal

Garis handap nyaéta yén lamun data anjeun atanapi algoritma anu goréng, anu leuwih goreng ti gunana, maranéhna bisa jadi bahaya. Aya anu sapertos "audit algorithmic.” Tujuanana nyaéta pikeun ngabantosan organisasi pikeun ngaidentipikasi poténsial résiko anu aya hubunganana sareng algoritma anu aya hubunganana sareng kaadilan, bias sareng diskriminasi. Di tempat séjén, Facebook ngagunakeun AI pikeun ngalawan bias dina AI.

Jalma anu bias

Kami gaduh jalma dina dua sisi persamaan. Jalma-jalma nyiapkeun analisa sareng jalma-jalma nampi inpormasi. Aya panalungtik aya nu maca. Dina komunikasi naon waé, tiasa aya masalah dina pangiriman atanapi panarimaan.

Candak cuaca, contona. Naon hartina "kasempetan hujan"? Anu kahiji, naon anu dimaksud ku météorologi nalika nyarios aya kamungkinan hujan? Numutkeun pamaréntah AS Service Cuaca Nasional, kasempetan hujan, atawa naon maranéhna nelepon Probabilitas Présipitasi (PoP), mangrupa salah sahiji elemen sahenteuna dipikaharti dina ramalan cuaca. Éta gaduh definisi standar: "Kamungkinan présipitasi ngan ukur kamungkinan statistik 0.01" inci [sic] tina [sic] langkung seueur présipitasi di daérah anu ditangtukeun dina daérah ramalan anu dipasihkeun dina jangka waktu anu ditangtukeun." "Daerah anu dipasihkeun" nyaéta daérah ramalan, atanapi broadwewengkon tuang. Éta hartosna Probabilitas Présipitasi resmi gumantung kana kayakinan yén bakal hujan di mana waé di daérah sareng persén daérah anu bakal baseuh. Dina basa sejen, lamun meteorologist nu yakin yén bakal hujan di wewengkon ramalan (Kapercayaan = 100%), mangka PoP ngawakilan porsi wewengkon nu bakal nampa hujan.  

Jalan Paris; Poé Hujan,Gustave Caillebotte (1848-1894) Chicago Art Institute Public Domain

Kasempetan hujan gumantung kana kapercayaan sareng daérah. Abdi henteu terang éta. Kuring curiga yén jalma sanés ogé henteu terang éta. Sakitar 75% tina populasi henteu leres ngartos kumaha PoP diitung, atanapi naon anu dimaksud pikeun ngagambarkeun. Ku kituna, urang keur fooled, atawa, ieu masalah persepsi. Hayu urang sebut wae precipitation perception. Naha urang nyalahkeun ramalan cuaca? Janten adil, aya sababaraha kabingungan diantara forecasters cuaca, teuing. Dina hiji naliti, 43% tina meteorologists surveyed ngomong yén aya pisan saeutik konsistensi dina harti PoP.

Analisis sorangan bias

Tina lima faktor anu mangaruhan, analisa sorangan panginten anu paling héran. Dina panalungtikan ilmiah anu ngahasilkeun makalah anu dirésensi dipedalkeun, ilaharna mangrupa téori anu dihipotesiskeun, métode dihartikeun pikeun nguji hipotésis, data dikumpulkeun, tuluy datana dianalisis. Jinis analisis anu dilakukeun sareng kumaha éta dilakukeun henteu dihargaan kumaha mangaruhan kana kasimpulan. Dijero keretas diterbitkeun awal taun ieu (Januari 2022), dina International Journal of Kangker, pangarang dievaluasi naha hasil tina percobaan dikawasa randomized sarta studi observational retrospective. Papanggihan maranéhanana menyimpulkan, yén,

Ku rupa-rupa pilihan analitik dina panalungtikan efektivitas komparatif, kami ngahasilkeun hasil anu sabalikna. Hasilna nunjukkeun yén sababaraha panilitian observasi retrospektif tiasa mendakan perlakuan anu ningkatkeun hasil pikeun pasien, sedengkeun panilitian anu sami tiasa mendakan henteu, ngan ukur dumasar kana pilihan analitis.

Kapungkur, nalika maca artikel jurnal ilmiah, upami anjeun sapertos kuring, anjeun panginten panginten hasil atanapi kasimpulan sadayana ngeunaan data. Ayeuna, katingalina yén hasil, atanapi naha hipotésis awal dikonfirmasi atanapi dibantah ogé tiasa gumantung kana metode analisa.

nu lain diajar kapanggih hasil sarupa. artikelna, Seueur Analis, Hiji Set Data: Ngadamel Transparan Kumaha Variasi dina Pilihan Analitik mangaruhan Hasil, ngajelaskeun kumaha aranjeunna masihan set data anu sami ka 29 tim anu béda pikeun dianalisis. Analisis data sering ditingali salaku prosés anu ketat sareng didefinisikeun anu nyababkeun hiji kacindekan.  

Sanajan bantahan para metodologi, gampang pikeun mopohokeun kanyataan yén hasilna gumantung kana strategi analitik anu dipilih, anu sorangan diimbuhan ku téori, asumsi, sareng titik pilihan. Dina seueur kasus, aya seueur pendekatan anu wajar (sareng seueur anu teu masuk akal) pikeun ngevaluasi data anu aya dina patarosan panalungtikan.

Para panalungtik riungan-sourced analisa data sarta nepi ka kacindekan yen sakabeh panalungtikan ngawengku kaputusan subjektif - kaasup jenis analisis ngagunakeun - nu bisa mangaruhan hasil ahir ulikan.

Rekomendasi anu sanés panalungtik anu nganalisis ulikan di luhur kudu ati-ati lamun ngagunakeun hiji makalah dina nyieun kaputusan atawa nyieun kacindekan.

Alamat Bias dina Analytics

Ieu ngan saukur dimaksudkeun pikeun jadi dongéng cautionary. Pangaweruh bisa ngajaga urang tina kabawa ku scams. Beuki sadar kana métode mungkin scanner bisa dipaké pikeun fool kami, nu kurang kamungkinan urang dicokot dina, sebutkeun, ku, sebutkeun, misdirection copet urang, atawa omongan lemes tina hiji Ponzi muter . Ku kituna éta kalayan pamahaman sarta recognizing poténsi biases anu mangaruhan analytics urang. Upami urang sadar kana pangaruh poténsial, urang panginten tiasa nampilkeun carita anu langkung saé sareng pamustunganana nyandak kaputusan anu langkung saé.