Kasinungalingan ng Analytics

by Agosto 31, 2022BI/Analytics0 komento

Kasinungalingan ng Analytics

Ang Bias ng Pagsusuri

 

Malinaw na sinabi ni Mark Twain ang isang bagay tulad ng, "Mayroong tatlong uri ng kasinungalingan: kasinungalingan, sinumpaang kasinungalingan at analitika. " 

Isinasaalang-alang namin na ang analytics ay nagbibigay sa amin ng kapaki-pakinabang at naaaksyunan na mga insight. Ang madalas nating hindi napagtanto ay kung paano naiimpluwensyahan ng ating sariling mga bias at ng iba ang mga sagot na ibinibigay sa atin ng kahit na ang pinaka-sopistikadong software at system. Kung minsan, maaari tayong manipulahin nang hindi tapat, ngunit, mas karaniwan, maaaring mga banayad at walang malay na pagkiling ang pumapasok sa ating analytics. Ang motibasyon sa likod ng bias na analytics ay marami. Minsan ang mga walang kinikilingan na resulta na inaasahan natin mula sa agham ay naiimpluwensyahan ng 1) banayad na mga pagpipilian sa kung paano ipinakita ang data, 2) hindi pare-pareho o hindi kinatawan ng data, 3) kung paano sinanay ang mga AI system, 4) ang kamangmangan, kawalan ng kakayahan ng mga mananaliksik o iba pang sumusubok upang sabihin ang kuwento, 5) ang pagsusuri mismo.    

Ang Pagtatanghal ay Biased

Ang ilan sa mga kasinungalingan ay mas madaling makita kaysa sa iba. Kapag alam mo kung ano ang hahanapin, maaari kang mas madaling makakita ng potensyal nakaliligaw na mga graph at chart. 

Mayroong hindi bababa sa limang paraan upang mapanlinlang na magpakita ng data: 1) Magpakita ng limitadong set ng data, 2). Magpakita ng hindi nauugnay na mga ugnayan, 3) Magpakita ng data nang hindi tumpak, 4) Magpakita ng data nang hindi karaniwan, o 5). Ipakita ang data na sobrang pinasimple.

Magpakita ng limitadong set ng data

Ang paglilimita sa data, o pagpili ng kamay ng isang hindi random na seksyon ng data ay kadalasang maaaring magkuwento na hindi naaayon sa malaking larawan. Ang masamang sampling, o pagpili ng cherry, ay kapag ang analyst ay gumagamit ng isang hindi kinatawan na sample upang kumatawan sa isang mas malaking grupo. 

Noong Marso 2020, Kagawaran ng Pampublikong Kalusugan ng Georgia inilathala ang tsart na ito bilang bahagi ng pang-araw-araw na ulat ng katayuan nito. Ito ay talagang nagtataas ng higit pang mga katanungan kaysa sa mga sagot.  

Isa sa mga bagay na nawawala ay konteksto. Halimbawa, makatutulong na malaman kung ano ang porsyento ng populasyon para sa bawat pangkat ng edad. Ang isa pang isyu sa simpleng pie chart ay ang hindi pantay na mga pangkat ng edad. Ang 0-17 ay may 18 taon, 18-59 ay may 42, 60+ ay open ended, ngunit may humigit-kumulang 40 taon. Ang konklusyon, dahil lamang sa tsart na ito, ay ang karamihan ng mga kaso ay nasa 18-59 taong gulang na pangkat ng edad. Ang 60+ taong gulang na pangkat ay mukhang hindi gaanong apektado ng mga kaso ng COVID. Ngunit hindi ito ang buong kuwento.

Para sa paghahambing, ang iba't ibang set ng data na ito sa website ng CDC nag-chart ng mga kaso ng COVID ayon sa pangkat ng edad na may karagdagang data sa porsyento ng Populasyon ng US na nasa bawat hanay ng edad.  

Mas maganda ito. Mas marami tayong konteksto. Makikita natin na ang mga pangkat ng edad 18-29, 30-39, 40-49 lahat ay may mas mataas na porsyento ng mga kaso kaysa sa porsyento ng pangkat ng edad sa populasyon. Mayroon pa ring ilang hindi pantay na pagpapangkat ng edad. Bakit hiwalay na pangkat ng edad ang 16-17? Gayunpaman, hindi ito ang buong kuwento, ngunit ang mga eksperto ay nagsulat ng mga haligi, gumawa ng mga hula at nag-uutos sa mas mababa kaysa dito. Malinaw, sa COVID, maraming mga variable bilang karagdagan sa edad na nakakaapekto sa pagbibilang bilang isang positibong kaso: status ng pagbabakuna, pagkakaroon ng mga pagsusuri, dami ng beses na nasuri, comorbidities, at marami pang iba. Bilang ng mga kaso, mismo, ay nagbibigay ng hindi kumpletong larawan. Tinitingnan din ng karamihan sa mga eksperto ang Bilang ng mga namamatay, o mga porsyento ng mga namamatay sa bawat 100,000 populasyon, o mga kaso-fatality upang tingnan kung paano nakakaapekto ang COVID sa bawat pangkat ng edad.

Ipakita ang mga hindi nauugnay na ugnayan

Malinaw, mayroong isang malakas na ugnayan sa pagitan ng paggastos ng US sa agham, espasyo, at teknolohiya at ang bilang ng mga Pagpapakamatay sa pamamagitan ng pagbibigti, pagsasakal at pagkasakal. Ang Kaugnayan ay 99.79%, halos isang perpektong tugma.  

Sino, gayunpaman, ang gagawa ng kaso na ang mga ito ay magkaugnay, o ang isa ay sanhi ng isa pa? Mayroong iba pang hindi gaanong matinding mga halimbawa, ngunit hindi gaanong huwad. Mayroong katulad na malakas na ugnayan sa pagitan ng Mga Sulat sa Panalong Salita ng Scripps National Spelling Bee at Bilang ng mga Taong Pinatay ng Makamandag na Gagamba. Pagkakataon? Ikaw ang magdesisyon.

Ang isa pang paraan upang i-chart ang data na ito na maaaring hindi gaanong nakakapanlinlang ay ang pagsasama ng zero sa parehong Y-axes.

Ipakita ang data nang hindi tumpak

mula sa Paano Magpakita ng Data nang Masama, ipinakita ng US State of Georgia ang Top 5 Counties na may Pinakamaraming Bilang ng Nakumpirmang COVID-19 Cases.

Mukhang legit ha? Malinaw na may pababang takbo ng mga kumpirmadong kaso ng COVID-19. Nababasa mo ba ang X-axis? Ang X-axis ay kumakatawan sa oras. Karaniwan, ang mga petsa ay tataas mula kaliwa hanggang kanan. Dito, nakikita natin ang kaunting time travel sa X-axis: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

Teka? Ano? Ang X-axis ay hindi pinagsunod-sunod ayon sa pagkakasunod-sunod. Kaya, kahit gaano kaganda ang hitsura ng trend, hindi kami makakagawa ng anumang konklusyon. Kung inayos ang mga petsa, ang mga bar para sa bilang ng mga kaso ay nagpapakita ng higit na pattern ng sawtooth kaysa sa anumang uri ng trend.

Ang madaling ayusin dito ay ang pag-uri-uriin ang mga petsa sa paraang ginagawa ng isang kalendaryo.

Ipakita ang data nang hindi karaniwan

Busy kaming lahat. Tinuruan tayo ng ating utak na gumawa ng mabilis na paghuhusga batay sa mga pagpapalagay na pare-pareho sa ating mundo. Halimbawa, ang bawat graph na nakita ko ay nagpapakita ng x- at y- axes na nagkikita sa zero, o pinakamababang halaga. Sa madaling sabi sa tsart na ito, anong mga konklusyon ang maaari mong gawin tungkol sa epekto ng Florida “Sstand your ground law."? Nahihiya akong aminin, ngunit niloko ako ng graph na ito noong una. Maginhawang iginuhit ang iyong mata sa text at arrow sa gitna ng graphic. Ang pababa ay nasa itaas sa graph na ito. Maaaring hindi ito isang kasinungalingan - ang data ay ayos doon. Ngunit, kailangan kong isipin na ito ay sinadya upang manlinlang. Kung hindi mo pa ito nakikita, ang zero sa y-axis ay nasa itaas. Kaya, habang bumababa ang data, nangangahulugan iyon ng mas maraming pagkamatay. Ipinapakita ng tsart na ito na ang bilang ng mga pagpatay gamit ang mga baril nadagdagan pagkatapos ng 2005, ipinahiwatig ng trend na pupunta pababa.

Ipakita ang data na sobrang pinasimple

Isang halimbawa ng sobrang pagpapasimple ng data ang makikita kapag sinamantala ng mga analyst ang Paradox ng Simpson. Ito ay isang phenomenon na nangyayari kapag ang pinagsama-samang data ay lumilitaw na nagpapakita ng ibang konklusyon kaysa kapag ito ay pinaghihiwalay sa mga subset. Ang bitag na ito ay madaling mahulog kapag tumitingin sa mataas na antas ng pinagsama-samang mga porsyento. Isa sa mga pinakamalinaw na paglalarawan ng Simpson's Paradox sa trabaho ay nauugnay sa batting average.  

Dito makikita natin na si Derek Jeter ay may mas mataas na pangkalahatang batting average kaysa sa David Justice para sa 1995 at 1996 season. Dumating ang kabalintunaan kapag napagtanto natin na natalo ni Justice si Jeter sa batting average sa parehong mga taon. Kung titingnan mong mabuti, makatuwiran kapag napagtanto mo na si Jeter ay may humigit-kumulang 4x na higit pang mga at-bat (ang denominator) noong 1996 sa isang .007 na mas mababang average noong 1996. Samantalang, ang Hustisya ay may humigit-kumulang 10x ng bilang ng mga at-bat sa . 003 na mas mataas na average noong 1995.

Ang pagtatanghal ay lumilitaw nang diretso, ngunit ang Simpson's Paradox, sinasadya, o hindi sinasadya, ay humantong sa mga maling konklusyon. Kamakailan, may mga halimbawa ng Simpson's Paradox sa mga balita at sa social media na may kaugnayan sa mga bakuna at pagkamatay sa COVID. Isa tsart nagpapakita ng line graph na naghahambing ng mga rate ng pagkamatay sa pagitan ng nabakunahan at hindi nabakunahan para sa mga taong may edad na 10-59 taong gulang. Ipinapakita ng tsart na ang hindi nabakunahan ay patuloy na may mas mababang rate ng namamatay. Anong nangyayari dito?  

Ang isyu ay katulad ng nakikita natin sa mga batting average. Ang denominator sa kasong ito ay ang bilang ng mga indibidwal sa bawat pangkat ng edad. Pinagsasama ng graph ang mga pangkat na may iba't ibang resulta. Kung titingnan natin ang mas matandang pangkat ng edad, 50-59 , nang hiwalay, makikita natin na mas maganda ang pamasahe ng nabakunahan. Ganun din, kung titingnan natin ang 10-49, makikita rin natin na mas maganda ang pamasahe sa nabakunahan. Kabalintunaan, kapag tinitingnan ang pinagsamang hanay, ang hindi nabakunahan ay lumilitaw na may mas masamang resulta. Sa ganitong paraan, makakagawa ka ng kaso para sa magkasalungat na argumento gamit ang data.

Ang Data ay Kampi

Ang data ay hindi palaging mapagkakatiwalaan. Kahit na sa komunidad na pang-agham, mahigit sa isang katlo ng mga mananaliksik na na-survey ang umamin "mga kaduda-dudang kasanayan sa pananaliksik."  Isa pa pananaliksik panloloko detective sabi ng, “Malamang na mas maraming panloloko sa data – mga talahanayan, line graph, sequencing data [– kaysa sa aktwal na natuklasan natin]. Ang sinumang nakaupo sa kanilang mesa sa kusina ay maaaring maglagay ng ilang numero sa isang spreadsheet at gumawa ng line graph na mukhang kapani-paniwala."

Muna ito halimbawa parang may gumawa lang niyan. Hindi ko sinasabing ito ay panloloko, ngunit bilang isang survey, hindi lang ito bumubuo ng anumang data na nag-aambag sa isang matalinong desisyon. Mukhang tinanong ng survey ang mga respondent tungkol sa kanilang opinyon tungkol sa kape ng gasolinahan, o iba pang nauugnay na kasalukuyang kaganapan.. 

  1. Napakahusay 
  2. Dakila
  3. Napakabuti 

Pinutol ko ang post sa Twitter upang alisin ang mga sanggunian sa nagkasalang partido, ngunit ito ang aktwal na buong tsart ng mga huling resulta ng survey. Ang mga survey na tulad nito ay hindi karaniwan. Malinaw, ang anumang chart na ginawa mula sa data na nagreresulta mula sa mga tugon ay magpapakita ng kape na pinag-uusapan ay hindi dapat palampasin.  

Ang problema ay kung nabigyan ka ng survey na ito at hindi nakahanap ng sagot na akma sa iyong iniisip, laktawan mo ang survey. Ito ay maaaring isang matinding halimbawa kung paano malilikha ang hindi mapagkakatiwalaang data. Ang hindi magandang disenyo ng survey, gayunpaman, ay maaaring humantong sa mas kaunting mga tugon at ang mga tumutugon ay mayroon lamang isang opinyon, ito ay isang bagay lamang ng antas. Ang data ay biased.

Ang pangalawang halimbawa ng data bias ay mula sa mga file ng “Pinakamasama COVID 19 Mapanlinlang na Mga Graph. " 

Muli, ito ay banayad at hindi lubos na halata. Ang bar graph ay nagpapakita ng isang makinis - halos masyadong makinis - pagbaba sa porsyento ng mga positibong kaso ng COVID-19 sa paglipas ng panahon para sa isang county sa Florida. Madali kang makagawa ng konklusyon na ang mga kaso ay bumababa. Iyan ay mahusay, ang visualization ay tumpak na kumakatawan sa data. Ang problema ay nasa data. So, it's a more insidious bias kasi hindi mo nakikita. Ito ay inihurnong sa data. Ang mga tanong na kailangan mong itanong, isama, sino ang sinusubok? Sa madaling salita, ano ang denominator, o ang populasyon na tinitingnan natin sa isang porsyento. Ang pag-aakalang ito ay ang buong populasyon, o hindi bababa sa, isang kinatawan na sample.

Gayunpaman, sa panahong ito, sa county na ito, ang mga pagsusulit ay ibinigay lamang sa isang limitadong bilang ng mga tao. Kinailangan nilang magkaroon ng mga sintomas na tulad ng COVID, o naglakbay kamakailan sa isang bansa sa listahan ng mga hot spot. Bukod pa rito, nakalilito ang mga resulta ay ang katotohanan na ang bawat positibong pagsusuri ay binilang at ang bawat negatibong pagsusuri ay binibilang. Kadalasan, kapag nagpositibo ang isang indibidwal, susubok silang muli kapag tumakbo na ang virus sa kurso nito at negatibo ang pagsubok. Kaya, sa isang kahulugan, para sa bawat positibong kaso, mayroong isang negatibong kaso ng pagsubok na nagkansela nito. Ang karamihan sa mga pagsusuri ay negatibo at ang mga negatibong pagsusuri ng bawat indibidwal ay binibilang. Makikita mo kung paano bias ang data at hindi partikular na kapaki-pakinabang para sa paggawa ng mga desisyon. 

Ang Input at Pagsasanay ng AI ay May Kampi

Mayroong hindi bababa sa dalawang paraan kung saan maaaring humantong ang AI sa mga bias na resulta: simula sa bias na data, o paggamit ng mga biased na algorithm upang iproseso ang wastong data.  

Kampi na Input

Marami sa atin ang nasa ilalim ng impresyon na ang AI ay mapagkakatiwalaan na mag-crunch ng mga numero, maglapat ng mga algorithm nito, at maglabas ng maaasahang pagsusuri ng data. Ang Artipisyal na Katalinuhan ay maaari lamang maging kasing talino kung ito ay sinanay. Kung ang data kung saan ito sinanay ay hindi perpekto, ang mga resulta o konklusyon ay hindi rin mapagkakatiwalaan. Katulad ng kaso sa itaas ng bias sa survey, may ilang paraan kung saan maaaring maging ang data nakiling sa machine learning:.  

  • Sample bias - ang dataset ng pagsasanay ay hindi kumakatawan sa buong populasyon.
  • Exclusion bias – minsan kung ano ang lumalabas na outlier ay talagang may bisa, o, kung saan namin iginuhit ang linya sa kung ano ang isasama (zip code, petsa, atbp).
  • Pagsusukat ng bias – ang kumbensyon ay palaging magsukat mula sa gitna at ibaba ng meniscus, halimbawa, kapag nagsusukat ng mga likido sa volumetric flasks o test tubes (maliban sa mercury.)
  • Recall bias – kapag ang pananaliksik ay nakasalalay sa memorya ng mga kalahok.
  • Pagkiling ng tagamasid - ang mga siyentipiko, tulad ng lahat ng tao, ay mas hilig na makita kung ano ang inaasahan nilang makita.
  • Sexist at racist bias – ang kasarian o lahi ay maaaring sobra o kulang ang kinakatawan.  
  • Pagkiling ng asosasyon - ang data ay nagpapatibay ng mga stereotype

Para maibalik ng AI ang maaasahang mga resulta, ang data ng pagsasanay nito ay kailangang kumatawan sa totoong mundo. Tulad ng napag-usapan natin sa isang nakaraang artikulo sa blog, ang paghahanda ng data ay kritikal at tulad ng anumang proyekto ng data. Ang hindi mapagkakatiwalaang data ay maaaring magturo sa mga machine learning system ng maling aral at magreresulta sa maling konklusyon. Sabi nga, “Lahat ng data ay biased. Hindi ito paranoya. Ito ay katotohanan.” – Dr. Sanjiv M. Narayan, Paaralan ng Medisina ng Stanford University.

Ang paggamit ng biased na data para sa pagsasanay ay humantong sa ilang kapansin-pansing pagkabigo ng AI. (Mga halimbawa dito at dito, pananaliksik dito..)

Mga Kampihang Algorithm

Ang algorithm ay isang hanay ng mga panuntunan na tumatanggap ng input at lumilikha ng output upang sagutin ang isang problema sa negosyo. Ang mga ito ay madalas na mahusay na tinukoy na mga puno ng desisyon. Ang mga algorithm ay parang mga itim na kahon. Walang sinuman ang sigurado kung paano sila gumagana, madalas, kahit na ang mga kumpanyang gumagamit ng mga ito. Oh, at madalas silang pagmamay-ari. Ang kanilang mahiwaga at masalimuot na kalikasan ay isa sa mga dahilan kung bakit ang mga biased algorithm ay napaka-insidious. . 

Isaalang-alang ang mga algorithm ng AI sa medisina, HR o pananalapi na isinasaalang-alang ang lahi. Kung ang lahi ay isang kadahilanan, ang algorithm ay hindi maaaring maging bulag sa lahi. Hindi ito teoretikal. Ang mga problemang tulad nito ay natuklasan sa totoong mundo gamit ang AI hire, ride-share, loan applications, at mga transplant sa bato

Ang ilalim na linya ay na kung ang iyong data o mga algorithm ay masama, ay mas masahol pa kaysa sa walang silbi, maaari silang mapanganib. Mayroong isang bagay bilang isang "algorithmic audit.” Ang layunin ay tulungan ang mga organisasyon na matukoy ang mga potensyal na panganib na nauugnay sa algorithm na nauugnay sa pagiging patas, bias at diskriminasyon. Sa ibang lugar, Facebook ay gumagamit ng AI upang labanan ang bias sa AI.

Ang mga tao ay may kinikilingan

Mayroon kaming mga tao sa magkabilang panig ng equation. Inihahanda ng mga tao ang pagsusuri at natatanggap ng mga tao ang impormasyon. May mga researcher at may mga readers. Sa anumang komunikasyon, maaaring magkaroon ng mga problema sa paghahatid o pagtanggap.

Kunin ang panahon, halimbawa. Ano ang ibig sabihin ng "pagkakataon ng ulan"? Una, ano ang ibig sabihin ng mga meteorologist kapag sinabi nilang may posibilidad na umulan? Ayon sa gobyerno ng US Pambansang Weather Service, isang pagkakataon ng pag-ulan, o tinatawag nilang Probability of Precipitation (PoP), ay isa sa mga hindi gaanong naiintindihan na elemento sa isang taya ng panahon. Mayroon itong karaniwang kahulugan: "Ang posibilidad ng pag-ulan ay isang istatistikal na posibilidad na 0.01″ pulgada [sic] ng [sic] higit pa sa pag-ulan sa isang partikular na lugar sa ibinigay na lugar ng pagtataya sa tinukoy na yugto ng panahon." Ang "ibinigay na lugar" ay ang forecast area, o broadlugar ng cast. Ibig sabihin, nakadepende ang opisyal na Probability of Precipitation sa kumpiyansa na uulan sa isang lugar sa lugar at sa porsyento ng lugar na mababasa. Sa madaling salita, kung kumpiyansa ang meteorologist na uulan sa lugar ng pagtataya (Confidence = 100%), kinakatawan ng PoP ang bahagi ng lugar na tatanggap ng ulan.  

Paris Street; Maulan na araw,Gustave Caillebotte (1848-1894) Chicago Art Institute Public Domain

Ang posibilidad ng pag-ulan ay depende sa parehong kumpiyansa at lugar. Hindi ko alam yan. Hinala ko, hindi rin alam ng ibang tao iyon. Humigit-kumulang 75% ng populasyon ang hindi tumpak na nauunawaan kung paano kinakalkula ang PoP, o kung ano ang ibig nitong katawanin. So, niloloko ba tayo, o, problema ba ito ng perception. Tawagin natin itong precipitation perception. Sinisisi ba natin ang weather forecaster? Upang maging patas, mayroong ilan pagkalito sa mga weather forecasters, masyadong. Sa isa pagsisiyasat, 43% ng mga meteorologist na na-survey ay nagsabi na napakakaunting pagkakapare-pareho sa kahulugan ng PoP.

Ang Pagsusuri Mismo ay Biased

Sa limang salik na nakakaimpluwensya, ang pagsusuri mismo ay maaaring ang pinaka nakakagulat. Sa siyentipikong pananaliksik na nagreresulta sa isang nasuri na papel na nai-publish, kadalasan ang isang teorya ay hypothesize, ang mga pamamaraan ay tinukoy upang subukan ang hypothesis, ang data ay kinokolekta, pagkatapos ay ang data ay sinusuri. Ang uri ng pagsusuri na ginagawa at kung paano ito ginagawa ay hindi pinahahalagahan sa kung paano ito nakakaapekto sa mga konklusyon. Sa isang papel na inilathala nang mas maaga sa taong ito (Enero 2022), sa International Journal of Cancer, sinuri ng mga may-akda kung ang mga resulta ng randomized controlled trials at retrospective observational studies. Napagpasyahan ng kanilang mga natuklasan, na,

Sa pamamagitan ng pag-iiba-iba ng mga pagpipiliang analitiko sa pagsasaliksik sa pagiging epektibo ng paghahambing, nakabuo kami ng mga salungat na resulta. Iminumungkahi ng aming mga resulta na ang ilang mga retrospective observational na pag-aaral ay maaaring makahanap ng paggamot na nagpapabuti sa mga kinalabasan para sa mga pasyente, habang ang isa pang katulad na pag-aaral ay maaaring makita na hindi ito, batay lamang sa mga pagpipiliang analitikal.

Noong nakaraan, kapag nagbabasa ng isang artikulo sa pang-agham na journal, kung ikaw ay tulad ko, maaaring naisip mo na ang mga resulta o konklusyon ay tungkol sa data. Ngayon, lumilitaw na ang mga resulta, o kung ang paunang hypothesis ay nakumpirma o pinabulaanan ay maaari ding depende sa paraan ng pagsusuri.

Isa pa pag-aralan nakahanap ng mga katulad na resulta. Ang artikulo, Maraming Analyst, Isang Set ng Data: Paggawa ng Transparent Kung Paano Naaapektuhan ng mga Pagkakaiba-iba sa Mga Pagpipilian sa Analytic ang mga Resulta, inilalarawan kung paano nila ibinigay ang parehong set ng data sa 29 na magkakaibang koponan upang suriin. Ang pagsusuri ng data ay madalas na nakikita bilang isang mahigpit, mahusay na tinukoy na proseso na humahantong sa isang solong konklusyon.  

Sa kabila ng mga pagtutol ng mga metodologo, madaling makaligtaan ang katotohanan na ang mga resulta ay maaaring depende sa piniling diskarte sa analitiko, na mismo ay puno ng teorya, mga pagpapalagay, at mga punto ng pagpili. Sa maraming kaso, maraming makatwirang (at maraming hindi makatwiran) na mga diskarte sa pagsusuri ng data na may kinalaman sa isang katanungan sa pananaliksik.

Pinagmulan ng mga mananaliksik ang pagsusuri ng data at dumating sa konklusyon na ang lahat ng pananaliksik ay kinabibilangan ng mga pansariling desisyon - kabilang ang uri ng pagsusuri na gagamitin - na maaaring makaapekto sa pinakahuling resulta ng pag-aaral.

Ang rekomendasyon ng isa pa manaliksisk na nagsuri sa pag-aaral sa itaas ay dapat maging maingat kapag gumagamit ng isang papel sa paggawa ng mga desisyon o paggawa ng mga konklusyon.

Pagtugon sa Bias sa Analytics

Ito ay sinadya lamang na maging isang babala na kuwento. Ang kaalaman ay maaaring maprotektahan tayo mula sa madala ng mga scam. Ang higit na kamalayan sa mga posibleng paraan na maaaring gamitin ng isang scanner upang lokohin tayo, mas maliit ang posibilidad na tayo ay madala, sabihin nating, sa pamamagitan ng, sabihin nating, maling direksyon ng mandurukot, o ang maayos na usapan ng isang Ponzi play. Gayon din sa pag-unawa at pagkilala sa mga potensyal na bias na nakakaapekto sa aming analytics. Kung alam namin ang mga potensyal na impluwensya, maaari naming maipakita ang kuwento nang mas mahusay at sa huli ay makagawa kami ng mas mahusay na mga desisyon.  

BI/AnalyticsWalang Kategorya
Alisin ang Iyong Mga Insight: Isang Gabay sa Analytics Spring Cleaning

Alisin ang Iyong Mga Insight: Isang Gabay sa Analytics Spring Cleaning

Unclutter Your Insights Isang Gabay sa Analytics Spring Cleaning Nagsisimula ang bagong taon sa isang malakas na putok; Ang mga ulat sa pagtatapos ng taon ay nilikha at sinusuri, at pagkatapos ay ang lahat ay naaayos sa isang pare-parehong iskedyul ng trabaho. Habang humahaba ang mga araw at namumukadkad ang mga puno at bulaklak,...

Magbasa Pa

BI/AnalyticsWalang Kategorya
NY Style vs. Chicago Style Pizza: Isang Masarap na Debate

NY Style vs. Chicago Style Pizza: Isang Masarap na Debate

Kapag binibigyang-kasiyahan ang ating mga pananabik, ilang bagay ang maaaring karibal sa saya ng isang mainit na hiwa ng pizza. Ang debate sa pagitan ng New York-style at Chicago-style na pizza ay nagdulot ng madamdaming talakayan sa loob ng mga dekada. Ang bawat istilo ay may sariling natatanging katangian at tapat na tagahanga....

Magbasa Pa

BI/Analytics
Mga Catalog ng Analytics – Isang Rising Star sa Analytics Ecosystem

Mga Catalog ng Analytics – Isang Rising Star sa Analytics Ecosystem

Panimula Bilang Chief Technology Officer (CTO), palagi akong nagbabantay sa mga umuusbong na teknolohiya na nagbabago sa paraan ng paglapit namin sa analytics. Ang isang ganoong teknolohiya na nakakuha ng aking pansin sa nakalipas na ilang taon at may napakalaking pangako ay ang Analytics...

Magbasa Pa