Ngapusi Analytics

by Aug 31, 2022BI/Analitikkomentar 0

Ngapusi Analytics

Bias Analisis

 

Mark Twain kanthi debat ujar kaya mangkene, "Ana telung jinis goroh: goroh, goroh, lan goroh. Analytics. " 

Kita njupuk kanggo diwenehake yen analytics menehi kita migunani, wawasan tumindak. Sing asring ora kita sadari yaiku kepiye bias kita dhewe lan wong liya mengaruhi jawaban sing diwenehake dening piranti lunak lan sistem sing paling canggih. Kadhangkala, kita bisa dimanipulasi kanthi ora jujur, nanging, luwih umum, bisa uga bias subtle lan ora sadar sing nyusup menyang analytics kita. Motivasi konco analytics bias akeh. Kadhangkala asil ora adil sing dikarepake saka ilmu pengetahuan dipengaruhi dening 1) pilihan sing ora jelas babagan cara data ditampilake, 2) data sing ora konsisten utawa ora representatif, 3) cara sistem AI dilatih, 4) ora ngerti, ora kompeten peneliti utawa wong liya sing nyoba. kanggo crita, 5) analisis dhewe.    

Presentasi kasebut bias

Sawetara goroh luwih gampang ditemokake tinimbang liyane. Yen sampeyan ngerti apa sing kudu digoleki, sampeyan bisa luwih gampang ndeteksi potensial grafik lan denah mblusukake. 

Paling ora ana limang cara kanggo misleadingly nampilake data: 1) Nuduhake set data sing winates, 2). Nuduhake korélasi sing ora ana hubungane, 3) Nuduhake data sing ora akurat, 4) Nuduhake data sing ora konvensional, utawa 5). Tampilake data sing disederhanakake.

Tampilake set data winates

Watesan data, utawa tangan milih bagean non-acak saka data bisa asring nyritakake crita sing ora konsisten karo gambar amba. Sampling ala, utawa njupuk ceri, yaiku nalika analis nggunakake sampel non-wakil kanggo makili klompok sing luwih gedhe. 

Ing Maret 2020, Departemen Kesehatan Umum Georgia nerbitake bagan iki minangka bagéan saka laporan status saben dina. Iku bener mundhakaken pitakonan luwih saka jawaban.  

Salah sawijining perkara sing ilang yaiku konteks. Contone, bakal migunani kanggo ngerti apa persentase populasi kanggo saben klompok umur. Masalah liyane karo grafik pai sing katon prasaja yaiku klompok umur sing ora rata. 0-17 wis 18 taun, 18-59 wis 42, 60+ mbukak rampung, nanging wis watara 40 taun. Kesimpulane, mung diwenehi grafik iki, mayoritas kasus ana ing klompok umur 18-59 taun. Klompok umur 60+ taun katon kurang kena pengaruh kasus COVID. Nanging iki ora kabeh crita.

Kanggo comparison, iki data beda pesawat ing Situs web CDC denah kasus COVID miturut klompok umur kanthi data tambahan babagan persentase Populasi AS ing saben rentang umur.  

Iki luwih apik. Kita duwe konteks liyane. Kita bisa ndeleng manawa klompok umur 18-29, 30-39, 40-49 kabeh duwe persentase kasus sing luwih dhuwur tinimbang persentase klompok umur ing populasi. Isih ana sawetara klompok umur sing ora rata. Napa 16-17 minangka klompok umur sing kapisah? Isih iki dudu crita kabeh, nanging para pakar wis nulis kolom, nggawe prediksi lan prediksi sing kurang saka iki. Temenan, karo COVID, ana akeh variabel saliyane umur sing kena pengaruh diitung minangka kasus positif: status vaksinasi, kasedhiyan tes, kaping pirang-pirang diuji, komorbiditas, lan liya-liyane. Jumlah kasus, dhewe, nyedhiyakake gambar sing ora lengkap. Umume ahli uga ndeleng Jumlah tiwas, utawa persentase tiwas saben 100,000 populasi, utawa fatalitas kasus kanggo ndeleng kepiye COVID mengaruhi saben klompok umur.

Tampilake korélasi sing ora ana hubungane

Temenan, ana a korélasi kuwat antarane mbuwang US ing ilmu, papan, lan teknologi lan jumlah Bunuh diri dening gantung, strangulation lan mati lemas. Korelasi 99.79%, meh cocog.  

Nanging, sapa sing bakal nggawe kasus kasebut ana hubungane, utawa siji nyebabake liyane? Ana conto liyane sing kurang nemen, nanging ora kurang palsu. Ana korélasi kuat sing padha antarane Letters in Winning Word of Scripps National Spelling Bee lan Jumlah Wong sing Dibunuh dening Venomous Spiders. Kebetulan? Sampeyan mutusake.

Cara liya kanggo nggambar data iki sing bisa uga ora nyasarake yaiku nyakup nol ing loro sumbu Y.

Nuduhake data kanthi ora akurat

saka Carane Nampilake Data Bad, Negara Bagian Georgia AS nampilake 5 Negara Paling Dhuwur kanthi Jumlah Kasus COVID-19 Paling Apik.

Katon sah, bener? Ana tren penurunan kasus COVID-19 sing dikonfirmasi. Apa sampeyan bisa maca sumbu X? Sumbu X nggambarake wektu. Biasane, tanggal bakal nambah saka kiwa menyang tengen. Ing kene, kita ndeleng perjalanan wektu sethithik ing sumbu X: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

Ngenteni? opo? Sumbu X ora diurutake kanthi kronologis. Dadi, kaya tren sing katon, kita ora bisa nggawe kesimpulan. Yen tanggal wis dhawuh, bar kanggo jumlah kasus nuduhake luwih saka pola sawtooth saka sembarang jenis gaya.

Cara sing gampang ing kene yaiku ngurutake tanggal kaya tanggalan.

Nuduhake data kanthi ora konvensional

Kita kabeh sibuk. Otak kita wis ngajari kita supaya nggawe keputusan kanthi cepet adhedhasar asumsi sing konsisten ing jagad iki. Contone, saben grafik sing wis dakdeleng nuduhake patemon sumbu x lan y ing nol, utawa nilai paling murah. Deleng ing grafik iki kanthi ringkes, kesimpulan apa sing bisa sampeyan lakoni babagan efek Florida "Tetep hukum sampeyan.”? Aku isin ngakoni, nanging grafik iki ngapusi aku ing wiwitan. Mripat sampeyan gampang digambar menyang teks lan panah ing tengah grafis. Mudhun munggah ing grafik iki. Sampeyan bisa uga ora goroh - data kabeh ana ing kana. Nanging, aku kudu mikir yen iki dimaksudake kanggo ngapusi. Yen sampeyan durung weruh, nol ing sumbu y ana ing ndhuwur. Dadi, nalika tren data mudhun, tegese luwih akeh tiwas. Bagan iki nuduhake manawa jumlah pembunuhan nggunakake senjata api tambah sawise 2005, dituduhake dening gaya arep mudhun.

Tampilake data sing disederhanakake

Salah sawijining conto over-simplifikasi data bisa dideleng nalika analis njupuk kauntungan saka Paradox Simpson. Iki minangka fenomena sing kedadeyan nalika data sing dikumpulake katon nuduhake kesimpulan sing beda tinimbang nalika dipisahake dadi subset. Trap iki gampang dicekel nalika ndeleng persentase gabungan tingkat dhuwur. Salah sawijining ilustrasi sing paling jelas saka Paradox Simpson ing karya ana hubungane karo batting rata-rata.  

Ing kene kita ndeleng manawa Derek Jeter duwe rata-rata batting sing luwih dhuwur tinimbang David Justice kanggo musim 1995 lan 1996. Paradoks kasebut muncul nalika kita ngerti manawa Kehakiman ngalahake Jeter kanthi rata-rata batting ing taun-taun kasebut. Yen katon kanthi teliti, iku ndadekake pangertèn nalika éling sing Jeter wis kira-kira 4x luwih at-bat (penyebut) ing 1996 ing .007 ngisor rata-rata ing 1996. Dene, Justice wis kira-kira 10x jumlah ing-bat ing mung . 003 rata-rata luwih dhuwur ing taun 1995.

Presentasi kasebut katon langsung, nanging Paradox Simpson, kanthi sengaja, utawa ora sengaja, nyebabake kesimpulan sing salah. Bubar, ana conto Simpson's Paradox ing warta lan media sosial sing ana gandhengane karo vaksin lan kematian COVID. siji rata-rata nuduhake grafik garis sing mbandhingake tingkat kematian antarane sing divaksinasi lan sing ora divaksinasi kanggo wong umur 10-59 taun. Bagan kasebut nuduhake manawa wong sing ora divaksinasi kanthi konsisten duwe tingkat kematian sing luwih murah. Apa sing kedadeyan ing kene?  

Masalah kasebut padha karo sing kita deleng kanthi rata-rata batting. Denominator ing kasus iki yaiku jumlah individu ing saben klompok umur. Grafik kasebut nggabungake klompok sing duwe asil sing beda. Yen kita ndeleng klompok umur sing luwih tuwa, 50-59, kanthi kapisah, kita bisa ndeleng manawa tarif sing divaksinasi luwih apik. Mangkono uga, yen kita ndeleng 10-49, kita uga weruh yen tarif vaksinasi luwih apik. Paradoks, nalika ndeleng set gabungan, sing ora divaksinasi katon duwe asil sing luwih elek. Kanthi cara iki, sampeyan bisa nggawe kasus kanggo argumen ngelawan nggunakake data.

Data kasebut bias

Data ora tansah bisa dipercaya. Malah ing komunitas ilmiah, luwih saka katelu saka peneliti sing ditliti ngakoni "Praktik riset sing dipertanyakan."  liyane detektif penipuan riset ngandika, "Ana kemungkinan luwih akeh penipuan ing data - tabel, grafik garis, data urutan [- tinimbang sing bener ditemokake]. Sapa wae sing lungguh ing meja pawon bisa nyelehake sawetara nomer ing spreadsheet lan nggawe grafik garis sing katon ngyakinake.

Iki pisanan contone katon kaya ana wong sing nglakoni. Aku ora ngandika iki penipuan, nanging minangka survey, iku mung ora generate data sing nyumbang kanggo kaputusan informed. Kayane survey takon responden babagan pendapat babagan kopi stasiun bensin, utawa sawetara acara saiki sing relevan. 

  1. Paling apik 
  2. Great
  3. Apik tenan 

Aku wis ngethok kiriman Twitter kanggo mbusak referensi menyang pihak sing salah, nanging iki minangka grafik kabeh asil pungkasan survey. Survei kaya iki ora umum. Temenan, grafik apa wae sing digawe saka data sing diasilake saka tanggapan bakal nuduhake kopi sing dimaksud ora bakal dilewati.  

Masalahe yaiku yen sampeyan wis diwenehi survey iki lan ora nemokake respon sing cocog karo pikiran sampeyan, sampeyan bakal ngliwati survey kasebut. Iki bisa dadi conto ekstrem babagan carane data sing ora bisa dipercaya bisa digawe. Desain survey sing ora apik, bisa nyebabake tanggapan sing luwih sithik lan sing nanggapi mung duwe siji pendapat, mung masalah gelar. Data kasebut bias.

Conto kapindho bias data iki saka file "Grafis COVID 19 Mblusukake. " 

Maneh, iki subtle lan ora rampung ketok. Grafik bar nuduhake lancar - meh banget lancar - nyuda persentase kasus COVID-19 sing positif sajrone wektu kanggo kabupaten ing Florida. Sampeyan bisa kanthi gampang nggawe kesimpulan yen kasus saya mudhun. Sing apik, visualisasi kanthi akurat nggambarake data kasebut. Masalah ana ing data. Dadi, bias sing luwih insidious amarga sampeyan ora bisa ndeleng. Iku dipanggang menyang data. Pitakonan sing kudu sampeyan takon, kalebu, sapa sing dites? Ing tembung liya, apa denominator, utawa populasi sing kita deleng persentase. Asumsi kasebut yaiku kabeh populasi, utawa paling ora, sampel sing perwakilan.

Nanging, sajrone wektu kasebut, ing kabupaten iki, tes mung diwenehake kanggo sawetara wong. Dheweke kudu duwe gejala kaya COVID, utawa bubar lelungan menyang negara ing dhaptar papan sing panas. Kajaba iku, asil sing mbingungake yaiku kasunyatan manawa saben tes positif diitung lan saben tes negatif diitung. Biasane, yen ana wong sing dites positif, dheweke bakal nyoba maneh nalika virus wis mlaku lan bakal nyoba negatif. Dadi, ing pangertene, kanggo saben kasus positif, ana kasus tes negatif sing mbatalake. Umume tes negatif lan tes negatif saben individu diitung. Sampeyan bisa ndeleng kepiye data bias lan ora migunani kanggo nggawe keputusan. 

Input lan Latihan AI Bias

Paling ora ana rong cara AI bisa nyebabake asil bias: diwiwiti kanthi data bias, utawa nggunakake algoritma bias kanggo ngolah data sing bener.  

Input bias

Akeh wong sing duwe kesan yen AI bisa dipercaya kanggo ngetung angka, ngetrapake algoritma, lan nggawe analisis data sing dipercaya. Artificial Intelligence mung bisa dadi pinter kaya sing dilatih. Yen data sing dilatih ora sampurna, asil utawa kesimpulan uga ora bisa dipercaya. Kaya ing kasus bias survey ing ndhuwur, ana sawetara cara kanggo data bias ing machine learning:.  

  • Bias sampel - dataset latihan ora makili kabeh populasi.
  • Bias pengecualian - kadhangkala apa sing katon minangka outlier bener bener, utawa, ing ngendi kita nggambar garis babagan apa sing kudu kalebu (kode pos, tanggal, lsp).
  • Bias pangukuran - konvensi kudu tansah ngukur saka tengah lan ngisor meniskus, contone, nalika ngukur cairan ing labu volumetrik utawa tabung uji (kajaba merkuri.)
  • Kelingan bias - nalika riset gumantung ing memori peserta.
  • Bias pengamat - para ilmuwan, kaya kabeh manungsa, luwih seneng ndeleng apa sing dikarepake.
  • Bias seksis lan rasis - jinis utawa ras bisa uga over- utawa kurang diwakili.  
  • Bias asosiasi - data nguatake stereotip

Kanggo AI ngasilake asil sing bisa dipercaya, data latihan kasebut kudu makili jagad nyata. Kaya sing wis dibahas ing artikel blog sadurunge, nyiapake data iku kritis lan kaya proyek data liyane. Data sing ora bisa dipercaya bisa ngajari sistem pembelajaran mesin sing salah lan bakal nyebabake kesimpulan sing salah. Sing ujar, "Kabeh data bias. Iki ora paranoia. Iki kasunyatan.” – Dr. Sanjiv M. Narayan, Sekolah Kedokteran Universitas Stanford.

Nggunakake data bias kanggo latihan wis nyebabake sawetara kegagalan AI sing misuwur. (Conto kene lan kene, riset kene..)

Algoritma bias

Algoritma minangka sakumpulan aturan sing nampa input lan nggawe output kanggo njawab masalah bisnis. Dheweke asring dadi wit keputusan sing wis ditemtokake. Algoritma kaya kothak ireng. Ora ana sing yakin carane kerjane, malah ora perusahaan sing nggunakake. Oh, lan dheweke asring duweke. Sifat misterius lan kompleks kasebut minangka salah sawijining sebab kenapa algoritma bias dadi insidious. . 

Coba algoritma AI ing obat, HR utawa keuangan sing nimbang balapan. Yen ras minangka faktor, algoritma kasebut ora bisa dadi wuta ras. Iki ora teoritis. Masalah kaya iki wis ditemokake ing donya nyata nggunakake AI ing Hiring, kulo-share, aplikasi utangans, lan transplantasi ginjel

Ing ngisor iki yaiku yen data utawa algoritma sampeyan ala, luwih elek tinimbang ora ana gunane, bisa uga mbebayani. Ana sing kaya "audit algoritma.” Tujuane kanggo mbantu organisasi ngenali risiko potensial sing ana gandhengane karo algoritma sing ana gandhengane karo keadilan, bias lan diskriminasi. ing papan liya, Facebook nggunakake AI kanggo nglawan bias ing AI.

Wong Bias

Kita duwe wong ing loro-lorone persamaan. Wong nyiapake analisis lan wong nampa informasi kasebut. Ana peneliti lan ana sing maca. Ing komunikasi apa wae, bisa uga ana masalah ing transmisi utawa resepsi.

Njupuk cuaca, contone. Apa tegese "kasempatan udan"? Pisanan, apa tegese meteorolog nalika ujar manawa ana kemungkinan udan? Miturut pamrentah AS Layanan Cuaca Nasional, kasempatan saka udan, utawa apa padha nelpon Probability of Precipitation (PoP), iku salah siji saka unsur paling mangertos ing ramalan cuaca. Iki nduweni definisi standar: "Kemungkinan udan mung probabilitas statistik 0.01″ inci [sic] saka [sic] luwih akeh udan ing wilayah tartamtu ing wilayah ramalan tartamtu ing periode wektu sing ditemtokake." "Wilayah sing diwenehake" yaiku wilayah ramalan, utawa broadarea cast. Tegese Probabilitas Presipitasi resmi gumantung marang kapercayan yen bakal udan ing endi wae ing wilayah kasebut lan persentase wilayah sing bakal udan. Kanthi tembung liyane, yen ahli meteorologi yakin yen bakal udan ing wilayah ramalan (Kapercayan = 100%), banjur PoP nuduhake bagean wilayah sing bakal nampa udan.  

Jalan Paris; Dina udan,Gustave Caillebotte (1848-1894) Domain Umum Institut Seni Chicago

Kasempatan udan gumantung saka kapercayan lan wilayah. Aku ora ngerti. Aku curiga wong liya uga ora ngerti. Udakara 75% saka populasi ora ngerti kanthi tepat carane PoP diwilang, utawa apa sing diwakili. Dadi, apa kita diapusi, utawa, iki masalah persepsi. Ayo diarani precipitation perception. Apa kita nyalahake ramalan cuaca? Kanggo adil, ana sawetara kebingungan antarane weather forecasters, banget. Ing siji survey, 43% ahli meteorologi sing ditliti ngandhakake yen ana konsistensi sethithik banget ing definisi PoP.

Analisa Dhewe Bias

Saka limang faktor sing mengaruhi, analisis kasebut bisa uga paling nggumunake. Ing riset ilmiah sing ngasilake makalah sing diteliti diterbitake, biasane teori dihipotesisake, metode ditetepake kanggo nguji hipotesis, data dikumpulake, banjur data dianalisis. Jinis analisis sing ditindakake lan kepriye ditindakake ora digatekake babagan pengaruhe kesimpulan. Ing kertas diterbitake awal taun iki (Januari 2022), ing International Journal of Cancer, penulis ngevaluasi apa asil uji coba sing dikontrol kanthi acak lan studi observasional retrospektif. Temuan kasebut nyimpulake,

Kanthi macem-macem pilihan analitik ing riset efektifitas komparatif, kita ngasilake asil sing nalisir. Asil kita nuduhake yen sawetara studi observasi retrospektif bisa nemokake perawatan nambah asil kanggo pasien, dene panaliten liyane sing padha bisa uga ora, mung adhedhasar pilihan analitis.

Biyen, nalika maca artikel jurnal ilmiah, yen sampeyan kaya aku, sampeyan bisa uga mikir yen asil utawa kesimpulan kabeh babagan data. Saiki, katon yen asil, utawa apa hipotesis awal dikonfirmasi utawa dibantah bisa uga gumantung saka metode analisis.

liyane sinau nemokake asil sing padha. Artikel, Akeh Analis, Siji Set Data: Nggawe Transparan Kepiye Variasi ing Pilihan Analitik Ngaruhi Hasil, nggambarake carane padha menehi data sing padha kanggo 29 tim beda kanggo njelasno. Analisis data asring dideleng minangka proses sing ketat lan jelas sing ndadékaké siji kesimpulan.  

Senadyan bantahan para ahli metodologi, ora gampang nglirwakake kasunyatan manawa asil bisa gumantung marang strategi analitik sing dipilih, sing dhewe diisi karo teori, asumsi, lan titik pilihan. Ing sawetara kasus, ana akeh pendekatan sing cukup (lan akeh sing ora wajar) kanggo ngevaluasi data sing ana ing pitakonan riset.

Para panaliti nggawe analisis data lan nyimpulake manawa kabeh riset kalebu keputusan subyektif - kalebu jinis analisis sing digunakake - sing bisa mengaruhi asil panaliten.

Rekomendasi saka liyane peneliti sing nganalisis panliten ing ndhuwur kudu ngati-ati nalika nggunakake kertas siji kanggo nggawe keputusan utawa nggawe kesimpulan.

Ngatasi Bias ing Analytics

Iki mung dimaksudaké kanggo crita cautionary. Kawruh bisa nglindhungi kita supaya ora kena penipuan. Sing liyane weruh saka cara bisa scanner bisa digunakake kanggo ngapusi kita, sing kurang kamungkinan kita bakal dijupuk ing, ngomong, dening misdirection pickpocket, utawa Dhiskusi Gamelan saka Ponzi play. Semono uga kanthi ngerteni lan ngerteni bias potensial sing mengaruhi analytics kita. Yen kita ngerti pengaruh potensial, kita bisa uga bisa nampilake crita kanthi luwih apik lan pungkasane nggawe keputusan sing luwih apik.