ການວິເຄາະຕົວະ

by Aug 31, 2022BI/ການວິເຄາະcomments 0

ການວິເຄາະຕົວະ

ຄວາມລຳອຽງຂອງການວິເຄາະ

 

Mark Twain ເວົ້າຢ່າງໂຕ້ວາທີເຊັ່ນວ່າ, "ມີສາມປະເພດຂອງການຕົວະ: ຕົວະ, ຂີ້ຕົວະແລະຂີ້ຕົວະ. ການວິເຄາະ. " 

ພວກເຮົາຍອມຮັບວ່າການວິເຄາະເຮັດໃຫ້ພວກເຮົາມີຄວາມເຂົ້າໃຈທີ່ເປັນປະໂຫຍດ, ສາມາດປະຕິບັດໄດ້. ສິ່ງທີ່ພວກເຮົາມັກຈະບໍ່ເຂົ້າໃຈແມ່ນວິທີການອະຄະຕິຂອງຕົນເອງແລະຂອງຄົນອື່ນມີອິດທິພົນຕໍ່ຄໍາຕອບທີ່ພວກເຮົາໄດ້ຮັບໂດຍຊອບແວແລະລະບົບທີ່ຊັບຊ້ອນທີ່ສຸດ. ບາງຄັ້ງ, ພວກເຮົາອາດຈະຖືກຫມູນໃຊ້ຢ່າງບໍ່ຊື່ສັດ, ແຕ່ໂດຍທົ່ວໄປແລ້ວ, ມັນອາດຈະເປັນຄວາມລໍາອຽງທີ່ອ່ອນໂຍນແລະບໍ່ຮູ້ຕົວທີ່ເຂົ້າມາໃນການວິເຄາະຂອງພວກເຮົາ. ແຮງຈູງໃຈທີ່ຢູ່ເບື້ອງຫຼັງການວິເຄາະອະຄະຕິແມ່ນມີຫຼາຍເທົ່າ. ບາງຄັ້ງຜົນໄດ້ຮັບທີ່ບໍ່ລໍາອຽງທີ່ພວກເຮົາຄາດຫວັງຈາກວິທະຍາສາດແມ່ນໄດ້ຮັບອິດທິພົນໂດຍ 1) ທາງເລືອກທີ່ອ່ອນໂຍນໃນວິທີການນໍາສະເຫນີຂໍ້ມູນ, 2) ຂໍ້ມູນທີ່ບໍ່ສອດຄ່ອງຫຼືບໍ່ແມ່ນຕົວແທນ, 3) ວິທີການທີ່ລະບົບ AI ໄດ້ຮັບການຝຶກອົບຮົມ, 4) ຄວາມໂງ່ຈ້າ, ຄວາມບໍ່ມີຄວາມສາມາດຂອງນັກຄົ້ນຄວ້າຫຼືຄົນອື່ນພະຍາຍາມ. ເພື່ອບອກເລື່ອງ, 5) ການວິເຄາະຕົວມັນເອງ.    

ການນໍາສະເຫນີແມ່ນມີຄວາມລໍາອຽງ

ການຕົວະບາງອັນແມ່ນງ່າຍກວ່າທີ່ຈະສັງເກດໄດ້. ເມື່ອເຈົ້າຮູ້ວ່າຈະຊອກຫາອັນໃດ ເຈົ້າອາດຈະກວດພົບໄດ້ງ່າຍຂຶ້ນ ເສັ້ນສະແດງແລະຕາຕະລາງທີ່ເຂົ້າໃຈຜິດ. 

ມີຢ່າງຫນ້ອຍ ຫ້າວິທີທີ່ຈະສະແດງຂໍ້ມູນທີ່ບໍ່ຖືກຕ້ອງ: 1) ສະແດງຊຸດຂໍ້ມູນຈໍາກັດ, 2). ສະແດງໃຫ້ເຫັນການພົວພັນທີ່ບໍ່ກ່ຽວຂ້ອງ, 3) ສະແດງຂໍ້ມູນບໍ່ຖືກຕ້ອງ, 4) ສະແດງຂໍ້ມູນແບບບໍ່ທໍາມະດາ, ຫຼື 5). ສະແດງຂໍ້ມູນແບບງ່າຍເກີນໄປ.

ສະແດງຊຸດຂໍ້ມູນຈໍາກັດ

ການຈໍາກັດຂໍ້ມູນ, ຫຼືມືເລືອກສ່ວນທີ່ບໍ່ແມ່ນແບບສຸ່ມຂອງຂໍ້ມູນມັກຈະສາມາດບອກເລື່ອງທີ່ບໍ່ສອດຄ່ອງກັບຮູບພາບໃຫຍ່. ການເກັບຕົວຢ່າງທີ່ບໍ່ດີ, ຫຼືການເລືອກ cherry, ແມ່ນເວລາທີ່ນັກວິເຄາະໃຊ້ຕົວຢ່າງທີ່ບໍ່ແມ່ນຕົວແທນເພື່ອເປັນຕົວແທນຂອງກຸ່ມໃຫຍ່. 

ໃນເດືອນມີນາປີ 2020, ພະແນກສາທາລະນະສຸກຂອງຈໍເຈຍ ເຜີຍແຜ່ຕາຕະລາງນີ້ເປັນສ່ວນຫນຶ່ງຂອງບົດລາຍງານສະຖານະພາບປະຈໍາວັນຂອງມັນ. ຕົວຈິງແລ້ວ, ມັນເຮັດໃຫ້ເກີດຄໍາຖາມຫຼາຍກ່ວາຄໍາຕອບ.  

ຫນຶ່ງໃນສິ່ງທີ່ຂາດຫາຍໄປແມ່ນສະພາບການ. ຕົວຢ່າງ, ມັນຈະເປັນປະໂຫຍດທີ່ຈະຮູ້ວ່າອັດຕາສ່ວນຂອງປະຊາກອນແມ່ນຫຍັງສໍາລັບແຕ່ລະກຸ່ມອາຍຸ. ບັນຫາອີກອັນຫນຶ່ງທີ່ມີຕາຕະລາງ pie ທີ່ເບິ່ງງ່າຍດາຍແມ່ນກຸ່ມອາຍຸທີ່ບໍ່ສະເຫມີກັນ. 0-17 ມີ 18 ປີ, 18-59 ມີ 42, 60+ ແມ່ນເປີດສິ້ນສຸດລົງ, ແຕ່ມີປະມານ 40 ປີ. ການສະຫລຸບ, ໂດຍຕາຕະລາງນີ້ຢ່າງດຽວ, ແມ່ນວ່າກໍລະນີສ່ວນໃຫຍ່ແມ່ນຢູ່ໃນກຸ່ມອາຍຸ 18-59 ປີ. ກຸ່ມອາຍຸ 60+ ປີເບິ່ງຄືວ່າຈະໄດ້ຮັບຜົນກະທົບໜ້ອຍກວ່າຈາກກໍລະນີ COVID. ແຕ່ນີ້ບໍ່ແມ່ນເລື່ອງທັງຫມົດ.

ສໍາ​ລັບ​ການ​ປຽບ​ທຽບ​, ຂໍ້​ມູນ​ທີ່​ແຕກ​ຕ່າງ​ກັນ​ນີ້​ກໍາ​ນົດ​ໄວ້​ໃນ​ ເວັບໄຊທ໌ CDC ສ້າງຕາຕະລາງກໍລະນີ COVID ຕາມກຸ່ມອາຍຸພ້ອມກັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບອັດຕາສ່ວນຂອງປະຊາກອນສະຫະລັດທີ່ຢູ່ໃນແຕ່ລະຊ່ວງອາຍຸ.  

ນີ້ແມ່ນດີກວ່າ. ພວກເຮົາມີສະພາບການເພີ່ມເຕີມ. ພວກເຮົາສາມາດເຫັນໄດ້ວ່າກຸ່ມອາຍຸ 18-29, 30-39, 40-49 ທັງຫມົດມີອັດຕາສ່ວນຂອງກໍລະນີທີ່ສູງກວ່າອັດຕາສ່ວນຂອງກຸ່ມອາຍຸໃນປະຊາກອນ. ຍັງມີບາງກຸ່ມອາຍຸທີ່ບໍ່ສະເຫມີກັນ. ເປັນຫຍັງ 16-17 ຈຶ່ງເປັນກຸ່ມອາຍຸທີ່ແຍກຕ່າງຫາກ? ເຖິງຢ່າງໃດກໍ່ຕາມ, ນີ້ບໍ່ແມ່ນເລື່ອງທັງຫມົດ, ແຕ່ນັກເສດຖີໄດ້ຂຽນຄໍລໍາ, ຄາດຄະເນແລະມອບຫມາຍໃຫ້ຫນ້ອຍກວ່ານີ້. ແນ່ນອນ, ກັບ COVID, ມີຫຼາຍຕົວປ່ຽນແປງນອກ ເໜືອ ໄປຈາກອາຍຸທີ່ສົ່ງຜົນກະທົບຕໍ່ການນັບເປັນກໍລະນີບວກ: ສະຖານະການສັກຢາປ້ອງກັນ, ມີການທົດສອບ, ຈຳນວນຄັ້ງທີ່ທົດສອບ, ພະຍາດຕິດຕໍ່, ແລະອື່ນໆ. ຈໍານວນກໍລະນີ, ຕົວຂອງມັນເອງ, ສະຫນອງຮູບພາບທີ່ບໍ່ຄົບຖ້ວນ. ຜູ້ຊ່ຽວຊານສ່ວນໃຫຍ່ຍັງເບິ່ງຈໍານວນການເສຍຊີວິດ, ຫຼືອັດຕາສ່ວນຂອງການເສຍຊີວິດຕໍ່ປະຊາກອນ 100,000, ຫຼືກໍລະນີການເສຍຊີວິດເພື່ອເບິ່ງວ່າ COVID ມີຜົນກະທົບຕໍ່ແຕ່ລະກຸ່ມອາຍຸແນວໃດ.

ສະແດງຄວາມສໍາພັນທີ່ບໍ່ກ່ຽວຂ້ອງ

ແນ່ນອນ, ມີ ຄວາມ​ສໍາ​ພັນ​ທີ່​ເຂັ້ມ​ແຂງ​ ລະ​ຫວ່າງ​ການ​ໃຊ້​ຈ່າຍ​ຂອງ​ສະ​ຫະ​ລັດ​ກ່ຽວ​ກັບ​ວິ​ທະ​ຍາ​ສາດ​, ອະ​ວະ​ກາດ​, ແລະ​ເຕັກ​ໂນ​ໂລ​ຊີ​ແລະ​ຈໍາ​ນວນ​ຂອງ Suicides ໂດຍ​ການ​ແຂວນ​ຄໍ​, strangulation ແລະ suffocation​. Correlation ແມ່ນ 99.79%, ເກືອບເປັນການແຂ່ງຂັນທີ່ສົມບູນແບບ.  

ຢ່າງໃດກໍຕາມ, ໃຜຈະເຮັດໃຫ້ກໍລະນີທີ່ສິ່ງເຫຼົ່ານີ້ມີຄວາມກ່ຽວຂ້ອງກັນ, ຫຼືຫນຶ່ງສາເຫດອີກ? ມີຕົວຢ່າງອື່ນໆທີ່ຮຸນແຮງຫນ້ອຍ, ແຕ່ບໍ່ມີ spurious ຫນ້ອຍ. ມີຄວາມສໍາພັນທີ່ເຂັ້ມແຂງທີ່ຄ້າຍຄືກັນລະຫວ່າງຈົດຫມາຍໃນການຊະນະຄໍາຂອງ Scripps ການສະກົດຄໍາແຫ່ງຊາດຂອງເຜິ້ງແລະຈໍານວນຄົນທີ່ຖືກຂ້າຕາຍໂດຍແມງມຸມພິດ. ບັງເອີນ? ເຈົ້າ​ຕັດ​ສິນ​ໃຈ.

ອີກວິທີໜຶ່ງໃນການຈັດຕາຕະລາງຂໍ້ມູນນີ້ທີ່ອາດຈະເຮັດໃຫ້ເຂົ້າໃຈຜິດໜ້ອຍກວ່າແມ່ນຈະລວມສູນຢູ່ໃນທັງສອງແກນ Y.

ສະແດງຂໍ້ມູນບໍ່ຖືກຕ້ອງ

From ວິທີການສະແດງຂໍ້ມູນທີ່ບໍ່ດີ, ລັດຈໍເຈຍຂອງສະຫະລັດໄດ້ນໍາສະເຫນີ 5 ປະເທດອັນດັບຕົ້ນທີ່ມີຈໍານວນຜູ້ຕິດເຊື້ອ COVID-19 ຫຼາຍທີ່ສຸດ.

ເບິ່ງຄືວ່າຖືກຕ້ອງ, ແມ່ນບໍ? ມີທ່າອ່ຽງຫຼຸດລົງຢ່າງຊັດເຈນຂອງກໍລະນີ COVID-19 ທີ່ຢືນຢັນແລ້ວ. ເຈົ້າສາມາດອ່ານແກນ X ໄດ້ບໍ? ແກນ X ເປັນຕົວແທນຂອງເວລາ. ໂດຍປົກກະຕິ, ວັນທີຈະເພີ່ມຂຶ້ນຈາກຊ້າຍຫາຂວາ. ນີ້, ພວກເຮົາເຫັນການເດີນທາງທີ່ໃຊ້ເວລາພຽງເລັກນ້ອຍໃນ X-axis: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

ລໍຖ້າ? ແມ່ນ​ຫຍັງ? ແກນ X ບໍ່ໄດ້ຖືກຈັດຮຽງຕາມລຳດັບ. ດັ່ງນັ້ນ, ທີ່ສວຍງາມເທົ່າທີ່ແນວໂນ້ມອາດຈະເບິ່ງ, ພວກເຮົາບໍ່ສາມາດສະຫຼຸບໄດ້. ຖ້າວັນທີຖືກສັ່ງ, ແຖບສໍາລັບຈໍານວນກໍລະນີສະແດງໃຫ້ເຫັນຮູບແບບແຂ້ວເລື່ອຍຫຼາຍກ່ວາປະເພດຂອງແນວໂນ້ມໃດໆ.

ການ​ແກ້​ໄຂ​ງ່າຍ​ທີ່​ນີ້​ແມ່ນ​ການ​ຈັດ​ຮຽງ​ວັນ​ທີ່​ປະ​ຕິ​ທິນ​ເຮັດ​ແນວ​ໃດ​.

ສະແດງຂໍ້ມູນແບບບໍ່ທຳມະດາ

ພວກເຮົາທຸກຄົນບໍ່ຫວ່າງ. ສະຫມອງຂອງພວກເຮົາໄດ້ສອນພວກເຮົາໃຫ້ຕັດສິນຢ່າງໄວວາໂດຍອີງໃສ່ສົມມຸດຕິຖານທີ່ສອດຄ່ອງຢູ່ໃນໂລກຂອງພວກເຮົາ. ຕົວຢ່າງ, ທຸກໆກາຟທີ່ຂ້ອຍເຄີຍເຫັນສະແດງໃຫ້ເຫັນການປະຊຸມແກນ x- ແລະ y- ຢູ່ທີ່ສູນ, ຫຼືຄ່າຕໍ່າສຸດ. ຊອກຫາຢູ່ໃນຕາຕະລາງນີ້ໂດຍຫຍໍ້, ສິ່ງທີ່ສະຫຼຸບທີ່ທ່ານສາມາດແຕ້ມກ່ຽວກັບຜົນກະທົບຂອງ Florida ຂອງ “ຢືນ​ຢັນ​ກົດ​ຫມາຍ​ພື້ນ​ຖານ​ຂອງ​ທ່ານ.”? ຂ້າພະເຈົ້າມີຄວາມລະອາຍທີ່ຈະຍອມຮັບມັນ, ແຕ່ເສັ້ນສະແດງນີ້ໄດ້ຫລອກລວງຂ້ອຍໃນຕອນທໍາອິດ. ຕາຂອງເຈົ້າຖືກແຕ້ມຢ່າງສະດວກຕໍ່ກັບຂໍ້ຄວາມ ແລະລູກສອນຢູ່ເຄິ່ງກາງຂອງກາຟິກ. ລົງແມ່ນຂຶ້ນຢູ່ໃນເສັ້ນສະແດງນີ້. ມັນອາດຈະບໍ່ແມ່ນເລື່ອງຕົວະ – ຂໍ້ມູນທັງໝົດຢູ່ທີ່ນັ້ນ. ແຕ່, ຂ້ອຍຕ້ອງຄິດວ່າມັນຫມາຍເຖິງການຫລອກລວງ. ຖ້າທ່ານຍັງບໍ່ໄດ້ເຫັນມັນເທື່ອ, ສູນຢູ່ໃນແກນ y ແມ່ນຢູ່ເທິງສຸດ. ດັ່ງນັ້ນ, ເມື່ອຂໍ້ມູນຫຼຸດລົງ, ນັ້ນຫມາຍຄວາມວ່າການເສຍຊີວິດຫຼາຍຂຶ້ນ. ຕາຕະລາງນີ້ສະແດງໃຫ້ເຫັນວ່າຈໍານວນການຄາດຕະກໍາໂດຍໃຊ້ອາວຸດປືນ ເພີ່ມຂຶ້ນ ຫຼັງ​ຈາກ​ປີ 2005​, ສະ​ແດງ​ໃຫ້​ເຫັນ​ໂດຍ​ທ່າ​ອ່ຽງ​ທີ່​ຈະ​ໄປ​ ລົງ.

ສະແດງຂໍ້ມູນແບບງ່າຍເກີນໄປ

ຕົວຢ່າງຫນຶ່ງຂອງ over-simplification ຂອງຂໍ້ມູນສາມາດເຫັນໄດ້ໃນເວລາທີ່ນັກວິເຄາະໃຊ້ປະໂຫຍດຈາກ Simpson's Paradox. ນີ້ແມ່ນປະກົດການທີ່ເກີດຂື້ນໃນເວລາທີ່ຂໍ້ມູນທີ່ລວບລວມໄດ້ສະແດງໃຫ້ເຫັນເຖິງການສະຫລຸບທີ່ແຕກຕ່າງກັນກ່ວາເວລາທີ່ມັນຖືກແຍກອອກເປັນຊຸດຍ່ອຍ. ຈັ່ນຈັບນີ້ແມ່ນງ່າຍທີ່ຈະຕົກເຂົ້າໄປໃນເມື່ອເບິ່ງອັດຕາສ່ວນລວມໃນລະດັບສູງ. ຫນຶ່ງໃນຮູບແຕ້ມທີ່ຊັດເຈນທີ່ສຸດຂອງ Simpson's Paradox ໃນການເຮັດວຽກແມ່ນກ່ຽວຂ້ອງກັບ batting ສະເລ່ຍ.  

ໃນທີ່ນີ້ພວກເຮົາເຫັນວ່າ Derek Jeter ມີສະເລ່ຍ batting ໂດຍລວມສູງກວ່າ David Justice ສໍາລັບລະດູການ 1995 ແລະ 1996. Paradox ມາໃນເວລາທີ່ພວກເຮົາຮັບຮູ້ວ່າຄວາມຍຸຕິທໍາໄດ້ດີທີ່ສຸດ Jeter ໃນການ batting ໂດຍສະເລ່ຍທັງສອງປີນັ້ນ. ຖ້າທ່ານເບິ່ງຢ່າງລະມັດລະວັງ, ມັນເຮັດໃຫ້ຄວາມຮູ້ສຶກໃນເວລາທີ່ທ່ານຮູ້ວ່າ Jeter ມີປະມານ 4 ເທົ່າຂອງເຈຍ (ຕົວຫານ) ໃນປີ 1996 ຢູ່ທີ່ .007 ສະເລ່ຍໃນປີ 1996. ໃນຂະນະທີ່, ຄວາມຍຸຕິທໍາມີປະມານ 10x ຂອງຈໍານວນເຈຍພຽງແຕ່ . 003 ສະ​ເລ່ຍ​ສູງ​ຂຶ້ນ​ໃນ​ປີ 1995​.

ການນໍາສະເຫນີປະກົດວ່າກົງໄປກົງມາ, ແຕ່ Simpson's Paradox, wittingly, ຫຼື unwittingly, ໄດ້ນໍາໄປສູ່ການສະຫລຸບທີ່ບໍ່ຖືກຕ້ອງ. ບໍ່ດົນມານີ້, ມີຕົວຢ່າງຂອງ Simpson's Paradox ໃນຂ່າວແລະໃນສື່ສັງຄົມທີ່ກ່ຽວຂ້ອງກັບຢາວັກຊີນແລະການເສຍຊີວິດຂອງ COVID. ຫນຶ່ງ ຕາຕະລາງ ສະ​ແດງ​ໃຫ້​ເຫັນ​ເສັ້ນ​ສະ​ແດງ​ການ​ປຽບ​ທຽບ​ອັດ​ຕາ​ການ​ເສຍ​ຊີ​ວິດ​ລະ​ຫວ່າງ​ການ​ສັກ​ຢາ​ປ້ອງ​ກັນ​ແລະ​ບໍ່​ໄດ້​ຮັບ​ການ​ສັກ​ຢາ​ສໍາ​ລັບ​ຄົນ​ອາ​ຍຸ 10-59 ປີ​. ຕາຕະລາງສະແດງໃຫ້ເຫັນວ່າຜູ້ທີ່ບໍ່ໄດ້ຮັບການສັກຢາຢ່າງຕໍ່ເນື່ອງມີອັດຕາການຕາຍຕ່ໍາ. ເກີດຫຍັງຂຶ້ນຢູ່ນີ້?  

ບັນຫາແມ່ນຄ້າຍຄືກັນກັບສິ່ງທີ່ພວກເຮົາເຫັນໂດຍສະເລ່ຍ batting. ຕົວຫານໃນກໍລະນີນີ້ແມ່ນຈໍານວນບຸກຄົນໃນແຕ່ລະກຸ່ມອາຍຸ. ເສັ້ນສະແດງການລວມກຸ່ມທີ່ມີຜົນໄດ້ຮັບທີ່ແຕກຕ່າງກັນ. ຖ້າພວກເຮົາເບິ່ງຢູ່ໃນກຸ່ມອາຍຸ, 50-59, ແຍກຕ່າງຫາກ, ພວກເຮົາເຫັນວ່າຄ່າວັກຊີນທີ່ດີກວ່າ. ເຊັ່ນດຽວກັນ, ຖ້າເບິ່ງ 10-49, ພວກເຮົາຍັງເຫັນວ່າຄ່າວັກຊີນທີ່ດີກວ່າ. Paradoxically, ໃນເວລາທີ່ຊອກຫາຢູ່ໃນຊຸດລວມ, unvaccinated ປະກົດວ່າມີຜົນໄດ້ຮັບທີ່ຮ້າຍແຮງກວ່າເກົ່າ. ດ້ວຍວິທີນີ້, ທ່ານສາມາດສ້າງກໍລະນີສໍາລັບການໂຕ້ຖຽງກົງກັນຂ້າມໂດຍໃຊ້ຂໍ້ມູນ.

ຂໍ້ມູນມີຄວາມລຳອຽງ

ຂໍ້ມູນບໍ່ສາມາດເຊື່ອຖືໄດ້ສະເໝີ. ເຖິງແມ່ນວ່າຢູ່ໃນຊຸມຊົນວິທະຍາສາດ, ຫຼາຍກວ່າຫນຶ່ງສ່ວນສາມຂອງນັກຄົ້ນຄວ້າໄດ້ສໍາຫຼວດຍອມຮັບ "ການປະຕິບັດການຄົ້ນຄວ້າທີ່ມີຄໍາຖາມ."  ອີກປະການຫນຶ່ງ ນັກສືບການສໍ້ໂກງການຄົ້ນຄວ້າ ເວົ້າວ່າ, "ມີການສໍ້ໂກງຫຼາຍໃນຂໍ້ມູນ - ຕາຕະລາງ, ເສັ້ນເສັ້ນ, ຂໍ້ມູນລໍາດັບ [– ຫຼາຍກວ່າທີ່ພວກເຮົາຄົ້ນພົບຕົວຈິງ]. ທຸກໆຄົນທີ່ນັ່ງຢູ່ໂຕະເຮືອນຄົວຂອງພວກເຂົາສາມາດໃສ່ຕົວເລກຈໍານວນຫນຶ່ງໃນຕາຕະລາງແລະສ້າງເສັ້ນສະແດງເສັ້ນທີ່ເບິ່ງຄືວ່າຫນ້າເຊື່ອຖື."

ນີ້ທໍາອິດ ຍົກຕົວຢ່າງ ເບິ່ງຄືວ່າມີຄົນເຮັດແນວນັ້ນ. ຂ້າພະເຈົ້າບໍ່ໄດ້ເວົ້າວ່ານີ້ແມ່ນການສໍ້ໂກງ, ແຕ່ເປັນການສໍາຫຼວດ, ມັນພຽງແຕ່ບໍ່ໄດ້ສ້າງຂໍ້ມູນໃດໆທີ່ປະກອບສ່ວນເຂົ້າໃນການຕັດສິນໃຈທີ່ມີຂໍ້ມູນ. ເບິ່ງຄືວ່າການສໍາຫຼວດໄດ້ຖາມຜູ້ຕອບກ່ຽວກັບຄວາມຄິດເຫັນຂອງເຂົາເຈົ້າກ່ຽວກັບກາເຟສະຖານີອາຍແກັສ, ຫຼືບາງເຫດການທີ່ກ່ຽວຂ້ອງໃນປະຈຸບັນ. 

  1. Superb 
  2. ທີ່ຍິ່ງໃຫຍ່
  3. ດີ​ຫຼາຍ 

ຂ້າ​ພະ​ເຈົ້າ​ໄດ້​ຕັດ​ການ​ຕອບ Twitter ເພື່ອ​ລົບ​ການ​ອ້າງ​ອີງ​ເຖິງ​ຝ່າຍ​ທີ່​ມີ​ຄວາມ​ຜິດ, ແຕ່​ວ່າ​ນີ້​ແມ່ນ​ຕາ​ຕະ​ລາງ​ທັງ​ຫມົດ​ທີ່​ແທ້​ຈິງ​ຂອງ​ຜົນ​ສໍາ​ເລັດ​ສຸດ​ທ້າຍ​ຂອງ​ການ​ສໍາ​ຫຼວດ. ການສໍາຫຼວດແບບນີ້ບໍ່ແມ່ນເລື່ອງແປກ. ແນ່ນອນ, ຕາຕະລາງໃດໆທີ່ສ້າງຂຶ້ນຈາກຂໍ້ມູນທີ່ເກີດຈາກການຕອບສະຫນອງຈະສະແດງໃຫ້ເຫັນກາເຟໃນຄໍາຖາມແມ່ນບໍ່ຄວນພາດ.  

ບັນຫາແມ່ນວ່າຖ້າທ່ານໄດ້ຮັບການສໍາຫຼວດນີ້ແລະບໍ່ພົບຄໍາຕອບທີ່ເຫມາະສົມກັບຄວາມຄິດຂອງເຈົ້າ, ທ່ານຈະຂ້າມການສໍາຫຼວດ. ນີ້ອາດຈະເປັນຕົວຢ່າງທີ່ຮຸນແຮງຂອງວິທີການສ້າງຂໍ້ມູນທີ່ບໍ່ຫນ້າເຊື່ອຖືໄດ້. ການອອກແບບການສໍາຫຼວດທີ່ບໍ່ດີ, ຢ່າງໃດກໍຕາມ, ສາມາດນໍາໄປສູ່ການຕອບສະຫນອງຫນ້ອຍແລະຜູ້ທີ່ຕອບສະຫນອງມີຄວາມຄິດເຫັນດຽວ, ມັນເປັນພຽງແຕ່ລະດັບ. ຂໍ້ມູນມີຄວາມລໍາອຽງ.

ຕົວຢ່າງທີສອງຂອງຄວາມລໍາອຽງຂອງຂໍ້ມູນນີ້ແມ່ນມາຈາກໄຟລ໌ຂອງ "ກຣາບທີ່ເຂົ້າໃຈຜິດ COVID 19 ທີ່ຮ້າຍແຮງທີ່ສຸດ. " 

ອີກເທື່ອຫນຶ່ງ, ນີ້ແມ່ນ subtle ແລະບໍ່ຈະແຈ້ງຢ່າງສົມບູນ. ເສັ້ນສະແດງແຖບສະແດງໃຫ້ເຫັນຄວາມລຽບ - ເກືອບກ້ຽງເກີນໄປ - ຫຼຸດລົງໃນອັດຕາສ່ວນຂອງກໍລະນີ COVID-19 ໃນທາງບວກໃນໄລຍະເວລາສໍາລັບຄາວຕີ້ໃນ Florida. ທ່ານສາມາດສະຫຼຸບໄດ້ຢ່າງງ່າຍດາຍວ່າກໍລະນີຫຼຸດລົງ. ມັນດີຫຼາຍ, ການສະແດງພາບສະແດງຂໍ້ມູນຢ່າງຖືກຕ້ອງ. ບັນຫາແມ່ນຢູ່ໃນຂໍ້ມູນ. ດັ່ງນັ້ນ, ມັນເປັນຄວາມລໍາອຽງ insidious ຫຼາຍເພາະວ່າທ່ານບໍ່ສາມາດເຫັນມັນ. ມັນໄດ້ຖືກອົບເຂົ້າໄປໃນຂໍ້ມູນ. ຄໍາຖາມທີ່ທ່ານຈໍາເປັນຕ້ອງຖາມ, ປະກອບມີ, ໃຜກໍາລັງທົດສອບ? ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ຕົວຫານແມ່ນຫຍັງ, ຫຼືປະຊາກອນທີ່ພວກເຮົາກໍາລັງຊອກຫາຢູ່ໃນອັດຕາສ່ວນ. ສົມມຸດຕິຖານແມ່ນວ່າມັນແມ່ນປະຊາກອນທັງຫມົດ, ຫຼືຢ່າງຫນ້ອຍ, ຕົວຢ່າງຕົວແທນ.

ຢ່າງໃດກໍຕາມ, ໃນໄລຍະນີ້, ໃນຄາວຕີ້ນີ້, ການທົດສອບໄດ້ຖືກມອບໃຫ້ພຽງແຕ່ຈໍານວນຈໍາກັດຂອງປະຊາຊົນ. ພວກເຂົາຕ້ອງມີອາການຄ້າຍຄື COVID, ຫຼືໄດ້ເດີນທາງໄປປະເທດໃດ ໜຶ່ງ ໃນບັນຊີລາຍຊື່ຈຸດຮ້ອນ. ນອກຈາກນັ້ນ, ຜົນໄດ້ຮັບທີ່ສັບສົນແມ່ນຄວາມຈິງທີ່ວ່າແຕ່ລະການທົດສອບໃນທາງບວກໄດ້ຖືກນັບແລະແຕ່ລະການທົດສອບລົບໄດ້ຖືກນັບ. ໂດຍປົກກະຕິ, ເມື່ອບຸກຄົນໃດ ໜຶ່ງ ທົດສອບໃນທາງບວກ, ພວກເຂົາຈະທົດສອບອີກເທື່ອ ໜຶ່ງ ເມື່ອໄວຣັດແລ່ນໄປຕາມເສັ້ນທາງຂອງມັນແລະຈະທົດສອບເປັນລົບ. ດັ່ງນັ້ນ, ໃນຄວາມຫມາຍ, ສໍາລັບແຕ່ລະກໍລະນີໃນທາງບວກ, ມີກໍລະນີການທົດສອບທາງລົບທີ່ຍົກເລີກມັນອອກ. ສ່ວນໃຫຍ່ຂອງການທົດສອບແມ່ນເປັນລົບແລະການທົດສອບລົບຂອງແຕ່ລະຄົນໄດ້ຖືກນັບ. ທ່ານສາມາດເບິ່ງວ່າຂໍ້ມູນມີຄວາມລໍາອຽງແລະບໍ່ເປັນປະໂຫຍດໂດຍສະເພາະໃນການຕັດສິນໃຈ. 

AI Input ແລະການຝຶກອົບຮົມມີຄວາມລໍາອຽງ

ມີຢ່າງຫນ້ອຍສອງວິທີທີ່ AI ສາມາດນໍາໄປສູ່ຜົນໄດ້ຮັບທີ່ລໍາອຽງ: ເລີ່ມຕົ້ນດ້ວຍຂໍ້ມູນທີ່ມີອະຄະຕິ, ຫຼືນໍາໃຊ້ລະບົບອະຄະຕິແບບລໍາອຽງເພື່ອປະມວນຜົນຂໍ້ມູນທີ່ຖືກຕ້ອງ.  

ການປ້ອນຂໍ້ມູນແບບລຳອຽງ

ພວກເຮົາຫຼາຍຄົນຢູ່ພາຍໃຕ້ຄວາມປະທັບໃຈທີ່ AI ສາມາດເຊື່ອຖືໄດ້ເພື່ອທໍາລາຍຕົວເລກ, ນໍາໃຊ້ສູດການຄິດໄລ່ຂອງມັນ, ແລະຖົ່ມການວິເຄາະຂໍ້ມູນທີ່ເຊື່ອຖືໄດ້. Artificial Intelligence ພຽງແຕ່ສາມາດສະຫລາດເທົ່າທີ່ມັນຖືກຝຶກອົບຮົມ. ຖ້າຂໍ້ມູນທີ່ໄດ້ຮັບການຝຶກອົບຮົມແມ່ນບໍ່ສົມບູນແບບ, ຜົນໄດ້ຮັບຫຼືບົດສະຫຼຸບຈະບໍ່ສາມາດເຊື່ອຖືໄດ້, ບໍ່ວ່າຈະ. ຄ້າຍຄືກັນກັບກໍລະນີຂ້າງເທິງຂອງຄວາມລໍາອຽງການສໍາຫຼວດ, ມີຫຼາຍວິທີທີ່ຂໍ້ມູນສາມາດເປັນ ເບົາ ໃນການຮຽນຮູ້ເຄື່ອງຈັກ:.  

  • ຄວາມລຳອຽງຕົວຢ່າງ – ຊຸດຂໍ້ມູນການຝຶກອົບຮົມບໍ່ແມ່ນຕົວແທນຂອງປະຊາກອນທັງໝົດ.
  • ການຍົກເວັ້ນອະຄະຕິ - ບາງຄັ້ງສິ່ງທີ່ເບິ່ງຄືວ່າເປັນ outliers ຕົວຈິງແລ້ວແມ່ນຖືກຕ້ອງ, ຫຼື, ບ່ອນທີ່ພວກເຮົາແຕ້ມເສັ້ນກ່ຽວກັບສິ່ງທີ່ຈະປະກອບມີ (ລະຫັດໄປສະນີ, ວັນທີ, ແລະອື່ນໆ).
  • ການວັດແທກຄວາມລຳອຽງ - ສົນທິສັນຍາແມ່ນເພື່ອວັດແທກຈາກສູນກາງແລະລຸ່ມຂອງ meniscus ຢູ່ສະ ເໝີ, ຍົກຕົວຢ່າງ, ເມື່ອວັດແທກທາດແຫຼວໃນກະເປົ໋າ volumetric ຫຼືທໍ່ທົດລອງ (ຍົກເວັ້ນ mercury.)
  • Recall bias – ເມື່ອການຄົ້ນຄວ້າຂຶ້ນກັບຄວາມຊົງຈໍາຂອງຜູ້ເຂົ້າຮ່ວມ.
  • ຄວາມລຳອຽງຂອງນັກສັງເກດການ – ນັກວິທະຍາສາດ, ເຊັ່ນດຽວກັບມະນຸດທຸກຄົນ, ມີທ່າອ່ຽງຫຼາຍຂຶ້ນທີ່ຈະເຫັນສິ່ງທີ່ເຂົາເຈົ້າຄາດວ່າຈະເຫັນ.
  • ອະຄະຕິທາງເພດ ແລະ ເຊື້ອຊາດ - ເພດ ຫຼື ເຊື້ອຊາດອາດຈະເກີນ ຫຼື ໜ້ອຍກວ່າ.  
  • ຄວາມລຳອຽງຂອງສະມາຄົມ – ຂໍ້ມູນໄດ້ເສີມສ້າງ stereotypes

ເພື່ອໃຫ້ AI ກັບຄືນຜົນໄດ້ຮັບທີ່ເຊື່ອຖືໄດ້, ຂໍ້ມູນການຝຶກອົບຮົມຂອງມັນຕ້ອງການເປັນຕົວແທນຂອງໂລກທີ່ແທ້ຈິງ. ດັ່ງທີ່ພວກເຮົາໄດ້ສົນທະນາໃນບົດຄວາມ blog ທີ່ຜ່ານມາ, ການກະກຽມຂໍ້ມູນແມ່ນສໍາຄັນແລະຄືກັນກັບໂຄງການຂໍ້ມູນອື່ນໆ. ຂໍ້ມູນທີ່ບໍ່ຫນ້າເຊື່ອຖືສາມາດສອນລະບົບການຮຽນຮູ້ຂອງເຄື່ອງຈັກໃນບົດຮຽນທີ່ບໍ່ຖືກຕ້ອງແລະຈະສົ່ງຜົນໃຫ້ຂໍ້ສະຫຼຸບທີ່ຜິດພາດ. ທີ່ເວົ້າວ່າ, "ຂໍ້ມູນທັງຫມົດແມ່ນມີຄວາມລໍາອຽງ. ນີ້ບໍ່ແມ່ນ paranoia. ນີ້ແມ່ນຄວາມຈິງ.” – ທ່ານດຣ Sanjiv M. Narayan, ໂຮງຮຽນແພດສາດມະຫາວິທະຍາໄລສະແຕນຟອດ.

ການນໍາໃຊ້ຂໍ້ມູນທີ່ມີຄວາມລໍາອຽງສໍາລັບການຝຶກອົບຮົມໄດ້ນໍາໄປສູ່ຄວາມລົ້ມເຫຼວຂອງ AI ທີ່ຫນ້າສັງເກດ. (ຕົວຢ່າງ ທີ່ນີ້ ແລະ ທີ່ນີ້, ການຄົ້ນຄວ້າ ທີ່ນີ້)

ສູດການຄິດໄລ່ອະຄະຕິ

ສູດການຄິດໄລ່ແມ່ນຊຸດຂອງກົດລະບຽບທີ່ຍອມຮັບການປ້ອນຂໍ້ມູນແລະສ້າງຜົນຜະລິດເພື່ອຕອບບັນຫາທຸລະກິດ. ພວກມັນມັກຈະເປັນຕົ້ນໄມ້ການຕັດສິນໃຈທີ່ດີ. Algorithms ມີຄວາມຮູ້ສຶກຄືກັບກ່ອງສີດໍາ. ບໍ່ມີໃຜແນ່ໃຈວ່າພວກເຂົາເຮັດວຽກແນວໃດ, ເລື້ອຍໆ, ບໍ່ແມ່ນແຕ່ ບໍລິສັດທີ່ໃຊ້ພວກມັນ. ໂອ້, ແລະພວກມັນມັກຈະເປັນເຈົ້າຂອງ. ລັກສະນະທີ່ລຶກລັບແລະຊັບຊ້ອນຂອງເຂົາເຈົ້າແມ່ນຫນຶ່ງໃນເຫດຜົນວ່າເປັນຫຍັງ algorithms ລໍາອຽງແມ່ນ insidious ຫຼາຍ. . 

ພິ​ຈາ​ລະ​ນາ​ວິ​ທີ​ການ AI ໃນ​ຢາ​ປົວ​ພະ​ຍາດ​, HR ຫຼື​ການ​ເງິນ​ທີ່​ໃຊ້​ເວ​ລາ​ເຊື້ອ​ຊາດ​ພິ​ຈາ​ລະ​ນາ​. ຖ້າເຊື້ອຊາດເປັນປັດໃຈ, ສູດການຄິດໄລ່ບໍ່ສາມາດເປັນຕາບອດເຊື້ອຊາດ. ນີ້ບໍ່ແມ່ນທິດສະດີ. ບັນຫາເຊັ່ນນີ້ໄດ້ຖືກຄົ້ນພົບໃນໂລກທີ່ແທ້ຈິງໂດຍໃຊ້ AI ໃນ ການຈ້າງງານ, ride-share, ຄຳ ຮ້ອງຂໍກູ້ຢືມs, and ການປູກຖ່າຍຫມາກໄຂ່ຫຼັງ

ເສັ້ນທາງລຸ່ມນີ້ແມ່ນວ່າຖ້າຂໍ້ມູນຫຼືສູດການຄິດໄລ່ຂອງທ່ານບໍ່ດີ, ຮ້າຍແຮງກວ່າທີ່ບໍ່ມີປະໂຫຍດ, ພວກມັນອາດຈະເປັນອັນຕະລາຍ. ມີສິ່ງດັ່ງກ່າວເປັນ "ການ​ກວດ​ສອບ algorithmic​.” ເປົ້າຫມາຍແມ່ນເພື່ອຊ່ວຍໃຫ້ອົງການຈັດຕັ້ງສາມາດກໍານົດຄວາມສ່ຽງທີ່ອາດຈະກ່ຽວຂ້ອງກັບສູດການຄິດໄລ່ຍ້ອນວ່າມັນກ່ຽວຂ້ອງກັບຄວາມຍຸດຕິທໍາ, ຄວາມລໍາອຽງແລະການຈໍາແນກ. ຢູ່ບ່ອນອື່ນ, ເຟສບຸກ ກໍາລັງໃຊ້ AI ເພື່ອຕໍ່ສູ້ກັບຄວາມລໍາອຽງໃນ AI.

ປະຊາຊົນມີຄວາມລໍາອຽງ

ພວກເຮົາມີຄົນຢູ່ໃນທັງສອງດ້ານຂອງສົມຜົນ. ປະຊາຊົນກໍາລັງກະກຽມການວິເຄາະແລະປະຊາຊົນໄດ້ຮັບຂໍ້ມູນ. ມີນັກຄົ້ນຄວ້າ ແລະ ມີຜູ້ອ່ານ. ໃນການສື່ສານໃດກໍ່ຕາມ, ອາດຈະມີບັນຫາໃນການສົ່ງຫຼືການຮັບ.

ສໍາລັບຕົວຢ່າງ, ເອົາສະພາບອາກາດ. "ໂອກາດຂອງຝົນ" ຫມາຍຄວາມວ່າແນວໃດ? ກ່ອນອື່ນ ໝົດ, ນັກອຸຕຸນິຍົມວິທະຍາ ໝາຍ ຄວາມວ່າແນວໃດເມື່ອພວກເຂົາເວົ້າວ່າມີໂອກາດຝົນຕົກ? ອີງຕາມລັດຖະບານສະຫະລັດ National Weather Service, ໂອກາດທີ່ຈະຝົນຕົກ, ຫຼືສິ່ງທີ່ພວກເຂົາເອີ້ນວ່າ Probability of Precipitation (PoP), ແມ່ນຫນຶ່ງໃນອົງປະກອບທີ່ເຂົ້າໃຈຫນ້ອຍທີ່ສຸດໃນພະຍາກອນອາກາດ. ມັນມີຄໍານິຍາມມາດຕະຖານ: "ຄວາມເປັນໄປໄດ້ຂອງຝົນແມ່ນເປັນພຽງແຕ່ຄວາມເປັນໄປໄດ້ທາງສະຖິຕິຂອງ 0.01" ນິ້ວ [sic] ຂອງ precipitation ຫຼາຍກວ່າ [sic] ໃນເຂດພື້ນທີ່ທີ່ກໍານົດໄວ້ໃນພື້ນທີ່ຄາດຄະເນໃນໄລຍະເວລາທີ່ກໍານົດໄວ້." “ພື້ນທີ່ໃຫ້” ແມ່ນພື້ນທີ່ຄາດຄະເນ, ຫຼື ຂroadພື້ນທີ່ສຽງໂຫວດທັງຫມົດ. ນັ້ນ ໝາຍ ຄວາມວ່າຄວາມເປັນໄປໄດ້ຂອງຝົນທີ່ເປັນທາງການແມ່ນຂຶ້ນກັບຄວາມ ໝັ້ນ ໃຈວ່າມັນຈະມີຝົນຕົກຢູ່ບ່ອນໃດບ່ອນ ໜຶ່ງ ແລະສ່ວນຮ້ອຍຂອງພື້ນທີ່ທີ່ຈະມີຄວາມຊຸ່ມ. ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ຖ້ານັກອຸຕຸນິຍົມຫມັ້ນໃຈວ່າຈະມີຝົນຕົກໃນພື້ນທີ່ຄາດຄະເນ (ຄວາມຫມັ້ນໃຈ = 100%), ຫຼັງຈາກນັ້ນ PoP ເປັນຕົວແທນຂອງສ່ວນຂອງພື້ນທີ່ທີ່ຈະໄດ້ຮັບຝົນ.  

ຖະໜົນປາຣີ; ມື້​ທີ່​ຝົນ​ຕົກ,Gustave Caillebotte (1848-1894) Chicago Art Institute Public Domain

ໂອກາດຂອງຝົນແມ່ນຂຶ້ນກັບຄວາມໝັ້ນໃຈ ແລະພື້ນທີ່. ຂ້າພະເຈົ້າບໍ່ຮູ້ວ່າ. ຂ້ອຍສົງໃສວ່າຄົນອື່ນບໍ່ຮູ້ຄືກັນ. ປະມານ 75% ຂອງປະຊາກອນບໍ່ເຂົ້າໃຈຢ່າງຖືກຕ້ອງວ່າ PoP ຖືກຄິດໄລ່ແນວໃດ, ຫຼືສິ່ງທີ່ມັນຫມາຍເຖິງການເປັນຕົວແທນ. ດັ່ງນັ້ນ, ພວກເຮົາຖືກຫລອກລວງ, ຫຼື, ນີ້ແມ່ນບັນຫາຂອງການຮັບຮູ້. ໃຫ້ເອີ້ນມັນວ່າຄວາມຮັບຮູ້ຂອງຝົນຕົກ. ພວກເຮົາຕຳນິພະຍາກອນອາກາດບໍ? ເພື່ອໃຫ້ມີຄວາມຍຸຕິທໍາ, ມີບາງ ຄວາມສັບສົນ ໃນບັນດານັກພະຍາກອນອາກາດ, ເຊັ່ນດຽວກັນ. ໃນຫນຶ່ງ ການສໍາຫຼວດ, 43% ຂອງນັກອຸຕຸນິຍົມທີ່ສໍາຫຼວດກ່າວວ່າມີຄວາມສອດຄ່ອງຫນ້ອຍຫຼາຍໃນຄໍານິຍາມຂອງ PoP.

ການວິເຄາະຕົວຂອງມັນເອງມີຄວາມລໍາອຽງ

ໃນຫ້າປັດໃຈທີ່ມີອິດທິພົນ, ການວິເຄາະຕົວມັນເອງອາດຈະເປັນສິ່ງທີ່ຫນ້າປະຫລາດໃຈທີ່ສຸດ. ໃນການຄົ້ນຄວ້າວິທະຍາສາດທີ່ສົ່ງຜົນໃຫ້ເອກະສານທົບທວນຖືກຕີພິມ, ໂດຍທົ່ວໄປແລ້ວທິດສະດີແມ່ນສົມມຸດຕິຖານ, ວິທີການຖືກກໍານົດເພື່ອທົດສອບສົມມຸດຕິຖານ, ເກັບກໍາຂໍ້ມູນ, ຫຼັງຈາກນັ້ນຂໍ້ມູນຈະຖືກວິເຄາະ. ປະເພດຂອງການວິເຄາະທີ່ເຮັດແລະວິທີການທີ່ມັນເຮັດແມ່ນ underappreciated ໃນວິທີການທີ່ມັນມີຜົນກະທົບບົດສະຫຼຸບ. ຢູ່​ໃນ ເຈ້ຍ ຈັດພີມມາໃນຕົ້ນປີນີ້ (ມັງກອນ 2022), ໃນ International Journal of Cancer, ຜູ້ຂຽນໄດ້ປະເມີນວ່າຜົນໄດ້ຮັບຂອງການທົດລອງຄວບຄຸມແບບສຸ່ມແລະການສຶກສາການສັງເກດການຄືນຫລັງ. ຜົນ​ການ​ຄົ້ນ​ພົບ​ຂອງ​ເຂົາ​ເຈົ້າ​ໄດ້​ສະ​ຫຼຸບ​ວ່າ,

ໂດຍການປ່ຽນແປງທາງເລືອກການວິເຄາະໃນການຄົ້ນຄວ້າປະສິດທິພາບປຽບທຽບ, ພວກເຮົາສ້າງຜົນໄດ້ຮັບທີ່ກົງກັນຂ້າມ. ຜົນໄດ້ຮັບຂອງພວກເຮົາແນະນໍາວ່າບາງການສຶກສາການສັງເກດການຄືນຫລັງອາດຈະພົບວ່າການປິ່ນປົວປັບປຸງຜົນໄດ້ຮັບສໍາລັບຄົນເຈັບ, ໃນຂະນະທີ່ການສຶກສາທີ່ຄ້າຍຄືກັນອື່ນອາດພົບວ່າມັນບໍ່, ພຽງແຕ່ອີງໃສ່ທາງເລືອກການວິເຄາະ.

ໃນອະດີດ, ເມື່ອອ່ານບົດຄວາມໃນວາລະສານວິທະຍາສາດ, ຖ້າທ່ານຄືກັບຂ້ອຍ, ທ່ານອາດຈະຄິດວ່າຜົນໄດ້ຮັບຫຼືບົດສະຫຼຸບແມ່ນກ່ຽວກັບຂໍ້ມູນທັງຫມົດ. ໃນປັດຈຸບັນ, ມັນປະກົດວ່າຜົນໄດ້ຮັບ, ຫຼືວ່າສົມມຸດຕິຖານເບື້ອງຕົ້ນໄດ້ຮັບການຢືນຢັນຫຼືປະຕິເສດກໍ່ອາດຈະຂຶ້ນກັບວິທີການຂອງການວິເຄາະ.

ອີກປະການຫນຶ່ງ ການສຶກສາ ພົບຜົນໄດ້ຮັບທີ່ຄ້າຍຄືກັນ. ບົດ​ຄວາມ, ນັກວິເຄາະຈໍານວນຫຼາຍ, ຂໍ້ມູນຫນຶ່ງຊຸດ: ການສ້າງຄວາມໂປ່ງໃສວ່າການປ່ຽນແປງທາງເລືອກການວິເຄາະມີຜົນກະທົບແນວໃດ, ອະທິບາຍວິທີການທີ່ເຂົາເຈົ້າໃຫ້ຂໍ້ມູນດຽວກັນກັບ 29 ທີມທີ່ແຕກຕ່າງກັນເພື່ອວິເຄາະ. ການວິເຄາະຂໍ້ມູນມັກຈະເຫັນວ່າເປັນຂະບວນການທີ່ເຂັ້ມງວດ, ກໍານົດຢ່າງດີທີ່ນໍາໄປສູ່ການສະຫລຸບດຽວ.  

ເຖິງວ່າຈະມີການປະຕິສັງຂອນຂອງນັກວິຊາການ, ມັນງ່າຍທີ່ຈະເບິ່ງຂ້າມຄວາມຈິງທີ່ວ່າຜົນໄດ້ຮັບອາດຈະຂຶ້ນກັບຍຸດທະສາດການວິເຄາະທີ່ເລືອກ, ເຊິ່ງຕົວມັນເອງຖືກສ້າງຂື້ນກັບທິດສະດີ, ສົມມຸດຕິຖານແລະຈຸດທາງເລືອກ. ໃນຫຼາຍໆກໍລະນີ, ມີຫຼາຍວິທີທີ່ສົມເຫດສົມຜົນ (ແລະບໍ່ສົມເຫດສົມຜົນ) ໃນການປະເມີນຂໍ້ມູນທີ່ຮັບຜິດຊອບໃນຄໍາຖາມຄົ້ນຄ້ວາ.

ນັກຄົ້ນຄວ້າໄດ້ລວບລວມຂໍ້ມູນການວິເຄາະຂໍ້ມູນແລະສະຫຼຸບວ່າການຄົ້ນຄວ້າທັງຫມົດປະກອບມີການຕັດສິນໃຈຫົວຂໍ້ - ລວມທັງການວິເຄາະປະເພດໃດທີ່ຈະໃຊ້ - ເຊິ່ງສາມາດສົ່ງຜົນກະທົບຕໍ່ຜົນໄດ້ຮັບສຸດທ້າຍຂອງການສຶກສາ.

ຄໍາແນະນໍາຂອງຄົນອື່ນ ນັກຄົ້ນຄວ້າ ຜູ້ທີ່ວິເຄາະການສຶກສາຂ້າງເທິງນີ້ແມ່ນມີຄວາມລະມັດລະວັງໃນເວລາທີ່ໃຊ້ເຈ້ຍດຽວໃນການຕັດສິນໃຈຫຼືການສະຫຼຸບ.

ການແກ້ໄຂຄວາມລໍາອຽງໃນການວິເຄາະ

ນີ້​ແມ່ນ​ພຽງ​ແຕ່​ຫມາຍ​ຄວາມ​ວ່າ​ຈະ​ເປັນ​ເລື່ອງ​ລະ​ມັດ​ລະ​ວັງ​. ຄວາມຮູ້ສາມາດປົກປ້ອງພວກເຮົາຈາກການຖືກຫຼອກລວງ. ການຮູ້ວິທີການທີ່ເປັນໄປໄດ້ທີ່ເຄື່ອງສະແກນອາດຈະໃຊ້ເພື່ອຫຼອກລວງພວກເຮົາ, ຄວາມເປັນໄປໄດ້ຫນ້ອຍທີ່ພວກເຮົາຈະຖືກນໍາໄປ, ເວົ້າ, ໂດຍ, ເວົ້າ, ການຊີ້ທາງຜິດຂອງນັກກະເປົ໋າ, ຫຼືການສົນທະນາທີ່ລຽບງ່າຍຂອງການຫຼີ້ນ Ponzi. ດັ່ງນັ້ນ, ມັນແມ່ນຄວາມເຂົ້າໃຈແລະຮັບຮູ້ຄວາມລໍາອຽງທີ່ເປັນໄປໄດ້ທີ່ມີຜົນກະທົບຕໍ່ການວິເຄາະຂອງພວກເຮົາ. ຖ້າພວກເຮົາຮູ້ເຖິງອິດທິພົນທີ່ອາດເກີດຂຶ້ນ, ພວກເຮົາອາດຈະສາມາດນໍາສະເຫນີເລື່ອງທີ່ດີກວ່າແລະໃນທີ່ສຸດການຕັດສິນໃຈທີ່ດີກວ່າ.  

BI/ການວິເຄາະ
ເຈົ້າໄດ້ເປີດເຜີຍຕົວເອງໃນບໍ່ດົນມານີ້ບໍ?

ເຈົ້າໄດ້ເປີດເຜີຍຕົວເອງໃນບໍ່ດົນມານີ້ບໍ?

  ພວກເຮົາກໍາລັງລົມກັນກ່ຽວກັບຄວາມປອດໄພໃນຄລາວ Over Exposure ໃຫ້ມັນມາທາງນີ້, ເຈົ້າກັງວົນກ່ຽວກັບການເປີດເຜີຍແມ່ນຫຍັງ? ຊັບສິນທີ່ມີຄຸນຄ່າທີ່ສຸດຂອງເຈົ້າແມ່ນຫຍັງ? ໝາຍເລກປະກັນສັງຄົມຂອງເຈົ້າບໍ? ຂໍ້​ມູນ​ບັນ​ຊີ​ທະ​ນາ​ຄານ​ຂອງ​ທ່ານ​? ເອກະສານສ່ວນຕົວ, ຫຼືຮູບຖ່າຍ? crypto ຂອງເຈົ້າ...

ອ່ານ​ຕື່ມ

BI/ການວິເຄາະ
ຄວາມສໍາຄັນຂອງ KPIs ແລະວິທີການນໍາໃຊ້ພວກມັນຢ່າງມີປະສິດທິພາບ

ຄວາມສໍາຄັນຂອງ KPIs ແລະວິທີການນໍາໃຊ້ພວກມັນຢ່າງມີປະສິດທິພາບ

ຄວາມສໍາຄັນຂອງ KPIs ແລະໃນເວລາທີ່ຂະຫນາດກາງແມ່ນດີກ່ວາທີ່ສົມບູນແບບ, ວິທີຫນຶ່ງທີ່ຈະລົ້ມເຫລວແມ່ນການຮຽກຮ້ອງໃຫ້ສົມບູນແບບ. ຄວາມສົມບູນແບບເປັນໄປບໍ່ໄດ້ ແລະສັດຕູຂອງຄວາມດີ. ຜູ້ປະດິດຂອງການໂຈມຕີທາງອາກາດ radar ເຕືອນລ່ວງຫນ້າໄດ້ສະເຫນີ "cult ຂອງຄວາມບໍ່ສົມບູນແບບ". ປັດຊະຍາຂອງລາວແມ່ນ ...

ອ່ານ​ຕື່ມ

BI/ການວິເຄາະUncategorized
CI / CD
Turbocharge ການປະຕິບັດການວິເຄາະຂອງທ່ານກັບ CI/CD

Turbocharge ການປະຕິບັດການວິເຄາະຂອງທ່ານກັບ CI/CD

ໃນ​ໄວ​ຂອງ​ມື້​ນີ້​ digital ພູມສັນຖານ, ທຸລະກິດອີງໃສ່ຄວາມເຂົ້າໃຈທີ່ຂັບເຄື່ອນດ້ວຍຂໍ້ມູນເພື່ອຕັດສິນໃຈຢ່າງມີຂໍ້ມູນແລະໄດ້ຮັບການແຂ່ງຂັນ. ການປະຕິບັດການແກ້ໄຂການວິເຄາະຢ່າງມີປະສິດທິພາບແລະມີປະສິດທິພາບແມ່ນສໍາຄັນສໍາລັບການດຶງຂໍ້ມູນທີ່ມີຄຸນຄ່າຈາກຂໍ້ມູນ. ວິທີໜຶ່ງທີ່ຈະ...

ອ່ານ​ຕື່ມ

BI/ການວິເຄາະ
Blog ຊັບສິນທາງປັນຍາ
ມັນເປັນຂອງຂ້ອຍບໍ? ການພັດທະນາແຫຼ່ງເປີດ ແລະ IP ໃນຍຸກຂອງ AI

ມັນເປັນຂອງຂ້ອຍບໍ? ການພັດທະນາແຫຼ່ງເປີດ ແລະ IP ໃນຍຸກຂອງ AI

ມັນເປັນຂອງຂ້ອຍບໍ? Open-Source Development ແລະ IP ໃນຍຸກຂອງ AI ເລື່ອງແມ່ນຄຸ້ນເຄີຍ. ພະນັກງານທີ່ສໍາຄັນອອກຈາກບໍລິສັດຂອງເຈົ້າແລະມີຄວາມກັງວົນວ່າພະນັກງານຈະເອົາຄວາມລັບທາງການຄ້າແລະຂໍ້ມູນລັບອື່ນໆໃນເສັ້ນທາງຂອງພວກເຂົາອອກຈາກປະຕູ. ບາງທີເຈົ້າໄດ້ຍິນ...

ອ່ານ​ຕື່ມ

BI/ການວິເຄາະ
ທະນາຄານ Silicon Valley
ການພະນັນຂອງທະນາຄານ Silicon Valley ກັບ KPI ໄດ້ນໍາໄປສູ່ການລົ້ມລົງ

ການພະນັນຂອງທະນາຄານ Silicon Valley ກັບ KPI ໄດ້ນໍາໄປສູ່ການລົ້ມລົງ

ການຫຼີ້ນການພະນັນຂອງທະນາຄານ Silicon Valley ກັບ KPI ໄດ້ນໍາໄປສູ່ການລົ້ມລົງ ຄວາມສໍາຄັນຂອງການຄຸ້ມຄອງການປ່ຽນແປງແລະການຄວບຄຸມທີ່ເຫມາະສົມ ທຸກໆຄົນກໍາລັງວິເຄາະຜົນມາຈາກຄວາມລົ້ມເຫຼວຂອງທະນາຄານ Silicon Valley ທີ່ຜ່ານມາ. Feds ກໍາລັງເຕະຕົວເອງຍ້ອນບໍ່ເຫັນສັນຍານເຕືອນ ...

ອ່ານ​ຕື່ມ

BI/ການວິເຄາະ
AI: Pandora's Box ຫຼືນະວັດຕະກໍາ

AI: Pandora's Box ຫຼືນະວັດຕະກໍາ

AI: Pandora's Box ຫຼືນະວັດຕະກໍາ ຊອກຫາຄວາມສົມດູນລະຫວ່າງການແກ້ໄຂຄໍາຖາມໃຫມ່ AI ຍົກຂຶ້ນມາແລະຜົນປະໂຫຍດຂອງນະວັດຕະກໍາມີສອງບັນຫາໃຫຍ່ທີ່ກ່ຽວຂ້ອງກັບ AI ແລະຊັບສິນທາງປັນຍາ. ຫນຶ່ງແມ່ນການນໍາໃຊ້ເນື້ອຫາຂອງມັນ. ຜູ້ໃຊ້ເຂົ້າໄປໃນເນື້ອຫາໃນຮູບແບບຂອງ ...

ອ່ານ​ຕື່ມ