ការកុហកវិភាគ
ភាពលំអៀងនៃការវិភាគ
លោក Mark Twain បាននិយាយយ៉ាងជជែកវែកញែកថា “មានពាក្យកុហកបីប្រភេទ៖ ភូតកុហក កុហកបោកប្រាស់ និង វិភាគ"។
យើងយល់ស្របថាការវិភាគផ្តល់ឱ្យយើងនូវការយល់ដឹងដែលមានប្រយោជន៍ និងអាចធ្វើសកម្មភាពបាន។ អ្វីដែលយើងជាញឹកញាប់មិនដឹងគឺរបៀបដែលការលំអៀងរបស់យើងនិងអ្នកដទៃមានឥទ្ធិពលលើចម្លើយដែលយើងត្រូវបានផ្តល់ឱ្យដោយសូម្បីតែកម្មវិធី និងប្រព័ន្ធទំនើបបំផុតក៏ដោយ។ ពេលខ្លះ យើងប្រហែលជាត្រូវបានបោកបញ្ឆោតដោយមិនស្មោះត្រង់ ប៉ុន្តែជាទូទៅ វាអាចជាភាពលំអៀងដែលមានលក្ខណៈស្រពិចស្រពិល និងដោយមិនដឹងខ្លួន ដែលចូលមកក្នុងការវិភាគរបស់យើង។ ការលើកទឹកចិត្តនៅពីក្រោយការវិភាគដោយលំអៀងគឺមានច្រើនដង។ ពេលខ្លះលទ្ធផលមិនលំអៀងដែលយើងរំពឹងពីវិទ្យាសាស្ត្រត្រូវបានជះឥទ្ធិពលដោយ 1) ជម្រើសដ៏តូចតាចក្នុងរបៀបដែលទិន្នន័យត្រូវបានបង្ហាញ 2) ទិន្នន័យមិនស៊ីសង្វាក់គ្នា ឬមិនមែនជាតំណាង 3) របៀបដែលប្រព័ន្ធ AI ត្រូវបានបណ្តុះបណ្តាល 4) ភាពល្ងង់ខ្លៅ អសមត្ថភាពរបស់អ្នកស្រាវជ្រាវ ឬអ្នកផ្សេងទៀតកំពុងព្យាយាម។ ដើម្បីប្រាប់រឿង 5) ការវិភាគខ្លួនឯង។
បទបង្ហាញមានភាពលំអៀង
ការភូតកុហកខ្លះងាយនឹងសម្គាល់ជាងអ្នកដទៃ។ នៅពេលអ្នកដឹងពីអ្វីដែលត្រូវរកមើល អ្នកអាចរកឃើញយ៉ាងងាយស្រួលជាង គំនូសតាងនិងគំនូសតាងបំភាន់។
យ៉ាងហោចណាស់មាន វិធីប្រាំយ៉ាងដើម្បីបង្ហាញទិន្នន័យខុស: 1) បង្ហាញសំណុំទិន្នន័យមានកំណត់ 2). បង្ហាញទំនាក់ទំនងដែលមិនទាក់ទងគ្នា 3) បង្ហាញទិន្នន័យមិនត្រឹមត្រូវ 4) បង្ហាញទិន្នន័យខុសពីធម្មតា ឬ 5) ។ បង្ហាញទិន្នន័យដែលងាយស្រួលជាង។
បង្ហាញសំណុំទិន្នន័យមានកំណត់
ការកំណត់ទិន្នន័យ ឬការជ្រើសរើសផ្នែកដែលមិនចៃដន្យនៃទិន្នន័យ ជាញឹកញាប់អាចប្រាប់រឿងដែលមិនស៊ីគ្នាជាមួយនឹងរូបភាពធំ។ គំរូមិនល្អ ឬការជ្រើសរើស cherry គឺជាពេលដែលអ្នកវិភាគប្រើគំរូដែលមិនតំណាងដើម្បីតំណាងឱ្យក្រុមធំជាង។
នៅខែមីនា 2020, នាយកដ្ឋានសុខភាពសាធារណៈរដ្ឋហ្សកហ្ស៊ី បានបោះពុម្ពតារាងនេះជាផ្នែកនៃរបាយការណ៍ស្ថានភាពប្រចាំថ្ងៃរបស់វា។ វាពិតជាបង្កើតសំណួរច្រើនជាងចម្លើយ។
រឿងមួយដែលបាត់គឺបរិបទ។ ជាឧទាហរណ៍ វានឹងមានប្រយោជន៍ក្នុងការដឹងពីភាគរយនៃចំនួនប្រជាជនសម្រាប់ក្រុមអាយុនីមួយៗ។ បញ្ហាមួយទៀតជាមួយនឹងតារាងចំណិតដែលមើលទៅសាមញ្ញគឺក្រុមអាយុមិនស្មើគ្នា។ 0-17 មាន 18 ឆ្នាំ, 18-59 មាន 42, 60+ ត្រូវបានបើកបញ្ចប់ប៉ុន្តែមានប្រហែល 40 ឆ្នាំ។ ការសន្និដ្ឋានដែលបានផ្តល់ឱ្យតារាងនេះតែម្នាក់ឯងគឺថាករណីភាគច្រើនស្ថិតនៅក្នុងក្រុមអាយុ 18-59 ឆ្នាំ។ ក្រុមអាយុ 60+ ឆ្នាំមើលទៅហាក់ដូចជាមិនសូវមានផលប៉ះពាល់ខ្លាំងពីករណី COVID។ ប៉ុន្តែនេះមិនមែនជារឿងទាំងមូលទេ។
សម្រាប់ការប្រៀបធៀប ទិន្នន័យផ្សេងគ្នានេះកំណត់នៅលើ គេហទំព័រ CDC គំនូសតាងករណី COVID តាមក្រុមអាយុ ជាមួយនឹងទិន្នន័យបន្ថែមអំពីភាគរយនៃចំនួនប្រជាជនអាមេរិកដែលមាននៅក្នុងជួរអាយុនីមួយៗ។
នេះប្រសើរជាង។ យើងមានបរិបទបន្ថែមទៀត។ យើងអាចមើលឃើញថាក្រុមអាយុ 18-29, 30-39, 40-49 ទាំងអស់មានភាគរយនៃករណីខ្ពស់ជាងភាគរយនៃក្រុមអាយុនៅក្នុងចំនួនប្រជាជន។ នៅតែមានក្រុមអាយុមិនស្មើគ្នាមួយចំនួន។ ហេតុអ្វីបានជា 16-17 ជាក្រុមអាយុដាច់ដោយឡែក? ប៉ុន្តែនេះមិនមែនជារឿងទាំងមូលទេ ប៉ុន្តែអ្នកស្រាវជ្រាវបានសរសេរជួរឈរ ធ្វើការទស្សន៍ទាយ និងអាណត្តិតិចជាងនេះ។ ជាក់ស្តែង ជាមួយនឹងជំងឺកូវីដ មានភាពប្រែប្រួលជាច្រើន បន្ថែមពីលើអាយុដែលប៉ះពាល់ដល់ការរាប់ជាករណីវិជ្ជមាន៖ ស្ថានភាពការចាក់ថ្នាំបង្ការ ភាពអាចរកបាននៃការធ្វើតេស្ត ចំនួនដងនៃការធ្វើតេស្ត ភាពស្លកសាំង និងកត្តាជាច្រើនទៀត។ ចំនួនករណីដោយខ្លួនវាផ្តល់នូវរូបភាពមិនពេញលេញ។ អ្នកជំនាញភាគច្រើនក៏ពិនិត្យមើលផងដែរអំពីចំនួននៃការស្លាប់ ឬភាគរយនៃការស្លាប់ក្នុងចំនួនប្រជាជន 100,000 ឬករណីស្លាប់ ដើម្បីរកមើលថាតើ COVID ប៉ះពាល់ដល់ក្រុមអាយុនីមួយៗ។
បង្ហាញទំនាក់ទំនងដែលមិនទាក់ទង
ជាក់ស្តែងមាន ក ទំនាក់ទំនងខ្លាំង រវាងការចំណាយរបស់សហរដ្ឋអាមេរិកលើវិទ្យាសាស្ត្រ អវកាស និងបច្ចេកវិទ្យា និងចំនួននៃការធ្វើអត្តឃាតដោយការព្យួរក ការច្របាច់ក និងការថប់ដង្ហើម។ ការជាប់ទាក់ទងគ្នាគឺ 99.79% ស្ទើរតែជាការប្រកួតដ៏ល្អឥតខ្ចោះ។
យ៉ាងណាក៏ដោយ តើអ្នកណានឹងធ្វើករណីដែលរឿងទាំងនេះទាក់ទងគ្នា ឬមួយបង្ករឿងផ្សេង? មានឧទាហរណ៍តិចបំផុតផ្សេងទៀត ប៉ុន្តែមិនសូវមានការស្រពិចស្រពិលទេ។ មានការជាប់ទាក់ទងគ្នាខ្លាំងស្រដៀងគ្នារវាង Letters in Winning Word of Scripps National Spelling Bee និងចំនួនមនុស្សដែលសម្លាប់ដោយសត្វពីងពាងពិស។ ចៃដន្យ? អ្នកសម្រេចចិត្ត។
មធ្យោបាយមួយទៀតក្នុងការធ្វើតារាងទិន្នន័យនេះដែលអាចមានការយល់ច្រឡំតិចជាងគឺការរួមបញ្ចូលសូន្យនៅលើអ័ក្ស Y ទាំងពីរ។
បង្ហាញទិន្នន័យមិនត្រឹមត្រូវ
ពី របៀបបង្ហាញទិន្នន័យមិនល្អរដ្ឋ Georgia របស់សហរដ្ឋអាមេរិកបានបង្ហាញប្រទេសកំពូលទាំង 5 ដែលមានចំនួនអ្នកឆ្លង COVID-19 ច្រើនជាងគេបំផុត។
មើលទៅស្របច្បាប់មែនទេ? មាននិន្នាការធ្លាក់ចុះយ៉ាងច្បាស់នៃករណីឆ្លង COVID-19 ដែលបានបញ្ជាក់។ តើអ្នកអាចអានអ័ក្ស X បានទេ? អ័ក្ស X តំណាងឱ្យពេលវេលា។ ជាធម្មតា កាលបរិច្ឆេទនឹងកើនឡើងពីឆ្វេងទៅស្តាំ។ នៅទីនេះយើងឃើញការធ្វើដំណើរពេលវេលាតិចតួចនៅលើអ័ក្ស X៖
4/28/2020
4/27/2020
4/29/2020
5/1/2020
4/30/2020
5/4/2020
5/6/2020
5/5/2020
5/2/22020 ...
រង់ចាំ? អ្វី? អ័ក្ស X មិនត្រូវបានតម្រៀបតាមកាលកំណត់ទេ។ ដូច្នេះ ល្អដូចនិន្នាការអាចមើលទៅ យើងមិនអាចសន្និដ្ឋានបានទេ។ ប្រសិនបើកាលបរិច្ឆេទត្រូវបានបញ្ជាទិញ របារសម្រាប់ចំនួនករណីបង្ហាញពីលំនាំ sawtooth ច្រើនជាងប្រភេទនៃនិន្នាការណាមួយ។
ការជួសជុលដ៏ងាយស្រួលនៅទីនេះគឺដើម្បីតម្រៀបកាលបរិច្ឆេទតាមរបៀបដែលប្រតិទិនធ្វើ។
បង្ហាញទិន្នន័យខុសពីធម្មតា។
យើងទាំងអស់គ្នារវល់។ ខួរក្បាលរបស់យើងបានបង្រៀនយើងឱ្យធ្វើការវិនិច្ឆ័យរហ័សដោយផ្អែកលើការសន្មត់ដែលស្របគ្នានៅក្នុងពិភពលោករបស់យើង។ ជាឧទាហរណ៍ រាល់ក្រាហ្វដែលខ្ញុំធ្លាប់ឃើញបង្ហាញការជួបប្រជុំអ័ក្ស x និង y នៅសូន្យ ឬតម្លៃទាបបំផុត។ ក្រឡេកមើលតារាងនេះដោយសង្ខេប តើការសន្និដ្ឋានអ្វីខ្លះដែលអ្នកអាចទាញបានអំពីឥទ្ធិពលនៃរដ្ឋផ្លរីដា “ ឈរលើច្បាប់មូលដ្ឋានរបស់អ្នក។”? ខ្ញុំខ្មាស់អៀនក្នុងការទទួលស្គាល់វា ប៉ុន្តែក្រាហ្វនេះបានបោកបញ្ឆោតខ្ញុំតាំងពីដំបូង។ ភ្នែករបស់អ្នកត្រូវបានគូរយ៉ាងងាយស្រួលទៅកាន់អត្ថបទ និងព្រួញនៅកណ្តាលក្រាហ្វិក។ ចុះក្រោមគឺឡើងនៅក្នុងក្រាហ្វនេះ។ វាប្រហែលជាមិនមែនជាការកុហកទេ - ទិន្នន័យគឺនៅទីនោះ។ ប៉ុន្តែខ្ញុំត្រូវគិតថាវាមានន័យបោកបញ្ឆោត។ ប្រសិនបើអ្នកមិនទាន់បានឃើញវាទេ សូន្យនៅលើអ័ក្ស y គឺនៅខាងលើ។ ដូច្នេះ នៅពេលដែលទិន្នន័យធ្លាក់ចុះ នោះមានន័យថាមានការស្លាប់កាន់តែច្រើន។ តារាងនេះបង្ហាញថាចំនួនឃាតកម្មដោយប្រើអាវុធ បានកើនឡើង បន្ទាប់ពីឆ្នាំ 2005 បង្ហាញដោយនិន្នាការទៅ ចុះ.
បង្ហាញទិន្នន័យដែលងាយស្រួលជាង
ឧទាហរណ៍មួយនៃការធ្វើឱ្យទិន្នន័យកាន់តែសាមញ្ញអាចត្រូវបានគេមើលឃើញនៅពេលដែលអ្នកវិភាគទាញយកអត្ថប្រយោជន៍ពី Simpson's Paradox ។ នេះគឺជាបាតុភូតដែលកើតឡើងនៅពេលដែលទិន្នន័យសរុបលេចឡើងដើម្បីបង្ហាញពីការសន្និដ្ឋានខុសពីពេលដែលវាត្រូវបានបំបែកទៅជាសំណុំរង។ អន្ទាក់នេះងាយស្រួលក្នុងការធ្លាក់ចូលនៅពេលមើលភាគរយសរុបកម្រិតខ្ពស់។ រូបភាពមួយក្នុងចំណោមរូបភាពច្បាស់បំផុតនៃ Paradox របស់ Simpson នៅកន្លែងធ្វើការគឺទាក់ទងនឹង មធ្យម batting.
នៅទីនេះយើងឃើញថា Derek Jeter មានមធ្យមភាគសរុបខ្ពស់ជាង David Justice សម្រាប់រដូវកាល 1995 និង 1996 ។ ភាពផ្ទុយគ្នាកើតឡើងនៅពេលដែលយើងដឹងថាយុត្តិធម៌បានល្អបំផុតសម្រាប់ Jeter ក្នុងការប្រយុទ្ធជាមធ្យមទាំងពីរឆ្នាំនោះ។ ប្រសិនបើអ្នកមើលដោយប្រុងប្រយ័ត្ន វាសមហេតុផលនៅពេលអ្នកដឹងថា Jeter មានសត្វប្រចៀវប្រហែល 4x បន្ថែមទៀត (ភាគបែង) ក្នុងឆ្នាំ 1996 នៅកម្រិតមធ្យម .007 ក្នុងឆ្នាំ 1996។ ចំណែកឯយុត្តិធម៌មានប្រហែល 10x នៃចំនួនសត្វប្រចៀវនៅត្រឹមតែ .003 ប៉ុណ្ណោះ។ 1995 ខ្ពស់ជាងមធ្យមភាគក្នុងឆ្នាំ XNUMX ។
ការបង្ហាញនេះហាក់ដូចជាត្រង់ៗ ប៉ុន្តែ Simpson's Paradox ដោយចេតនា ឬដោយមិនដឹងខ្លួន បាននាំឱ្យមានការសន្និដ្ឋានមិនត្រឹមត្រូវ។ ថ្មីៗនេះ មានឧទាហរណ៍នៃ Simpson's Paradox នៅក្នុងព័ត៌មាន និងនៅលើប្រព័ន្ធផ្សព្វផ្សាយសង្គមទាក់ទងនឹងវ៉ាក់សាំង និងការស្លាប់ដោយសារ COVID។ មួយ។ តារាង បង្ហាញក្រាហ្វបន្ទាត់ប្រៀបធៀបអត្រាមរណភាពរវាងអ្នកទទួលថ្នាំបង្ការ និងមិនបានចាក់វ៉ាក់សាំងសម្រាប់មនុស្សដែលមានអាយុពី 10-59 ឆ្នាំ។ តារាងបង្ហាញថាអ្នកមិនបានចាក់វ៉ាក់សាំងជាប់លាប់មានអត្រាមរណៈទាបជាង។ តើមានអ្វីកើតឡើងនៅទីនេះ?
បញ្ហាគឺស្រដៀងគ្នាទៅនឹងអ្វីដែលយើងឃើញជាមួយនឹងមធ្យមភាគ។ ភាគបែងក្នុងករណីនេះគឺជាចំនួនបុគ្គលក្នុងក្រុមអាយុនីមួយៗ។ ក្រាហ្វរួមបញ្ចូលក្រុមដែលមានលទ្ធផលខុសៗគ្នា។ ប្រសិនបើយើងក្រឡេកមើលក្រុមអាយុ 50-59 ដោយឡែកពីគ្នាយើងឃើញថាថ្លៃចាក់វ៉ាក់សាំងប្រសើរជាង។ ដូចគ្នាដែរ បើយើងក្រឡេកមើលលេខ ១០-៤៩ យើងក៏ឃើញថា ថ្លៃចាក់ថ្នាំបង្ការប្រសើរជាង។ ផ្ទុយស្រលះ នៅពេលដែលក្រឡេកមើលឈុតរួមបញ្ចូលគ្នា ការមិនបានចាក់វ៉ាក់សាំង ហាក់ដូចជាមានលទ្ធផលអាក្រក់ជាង។ នៅក្នុងវិធីនេះ អ្នកអាចបង្កើតករណីសម្រាប់អាគុយម៉ង់ផ្ទុយដោយប្រើទិន្នន័យ។
ទិន្នន័យមានភាពលំអៀង
ទិន្នន័យមិនតែងតែអាចជឿទុកចិត្តបានទេ។ សូម្បីតែនៅក្នុងសហគមន៍វិទ្យាសាស្ត្រក៏ដោយ ជាងមួយភាគបីនៃអ្នកស្រាវជ្រាវដែលបានស្ទង់មតិបានទទួលស្គាល់ "ការអនុវត្តការស្រាវជ្រាវដែលអាចសួរបាន។" មួយទៀត អ្នកស៊ើបអង្កេតការក្លែងបន្លំស្រាវជ្រាវ និយាយថា “ទំនងជាមានការក្លែងបន្លំច្រើននៅក្នុងទិន្នន័យ – តារាង ក្រាហ្វបន្ទាត់ ទិន្នន័យលំដាប់លំដោយ [– ជាងយើងកំពុងស្វែងរកការពិត] ។ អ្នកណាម្នាក់ដែលអង្គុយនៅតុផ្ទះបាយរបស់ពួកគេអាចដាក់លេខមួយចំនួនក្នុងសៀវភៅបញ្ជី និងធ្វើក្រាហ្វបន្ទាត់ដែលមើលទៅគួរឱ្យជឿ។
នេះជាលើកដំបូង ឧទាហរណ៍ មើលទៅដូចជាមាននរណាម្នាក់បានធ្វើអញ្ចឹង។ ខ្ញុំមិននិយាយថានេះគឺជាការក្លែងបន្លំទេ ប៉ុន្តែជាការស្ទង់មតិ វាគ្រាន់តែមិនបង្កើតទិន្នន័យណាមួយដែលរួមចំណែកដល់ការសម្រេចចិត្តដែលមានព័ត៌មាន។ វាហាក់ដូចជាការស្ទង់មតិបានសួរអ្នកឆ្លើយសំណួរអំពីគំនិតរបស់ពួកគេចំពោះកាហ្វេស្ថានីយ៍ប្រេងឥន្ធនៈ ឬព្រឹត្តិការណ៍បច្ចុប្បន្នដែលពាក់ព័ន្ធផ្សេងទៀត។
- អស្ចារ្យ
- អស្ចារ្យ
- ល្អណាស់
ខ្ញុំបានច្រឹបការបង្ហោះ Twitter ដើម្បីលុបឯកសារយោងទៅភាគីដែលមានកំហុស ប៉ុន្តែនេះជាតារាងទាំងមូលនៃលទ្ធផលចុងក្រោយនៃការស្ទង់មតិ។ ការស្ទង់មតិបែបនេះមិនមែនជារឿងចម្លែកទេ។ ជាក់ស្តែង គំនូសតាងណាមួយដែលបានបង្កើតពីទិន្នន័យដែលកើតចេញពីការឆ្លើយតបនឹងបង្ហាញថាកាហ្វេនៅក្នុងសំណួរមិនត្រូវខកខានឡើយ។
បញ្ហាគឺថា ប្រសិនបើអ្នកត្រូវបានគេផ្តល់ការស្ទង់មតិនេះ ហើយមិនបានរកឃើញការឆ្លើយតបដែលសមនឹងការគិតរបស់អ្នកទេ អ្នកនឹងរំលងការស្ទង់មតិនេះ។ នេះអាចជាឧទាហរណ៍ខ្លាំងនៃរបៀបដែលទិន្នន័យមិនគួរឱ្យទុកចិត្តអាចត្រូវបានបង្កើត។ ទោះជាយ៉ាងណាក៏ដោយ ការរចនាការស្ទង់មតិមិនល្អអាចនាំឱ្យមានការឆ្លើយតបតិចជាង ហើយអ្នកដែលឆ្លើយតបមានមតិតែមួយ វាគ្រាន់តែជាបញ្ហាកម្រិត។ ទិន្នន័យមានភាពលំអៀង។
ឧទាហរណ៍ទីពីរនៃការលំអៀងទិន្នន័យនេះគឺមកពីឯកសារនៃ "ក្រាហ្វដែលបំភាន់ COVID 19 អាក្រក់បំផុត។"។
ជាថ្មីម្តងទៀត នេះគឺជាការយល់ច្រឡំ និងមិនច្បាស់ទាំងស្រុង។ ក្រាហ្វរបារបង្ហាញពីភាពរលូន - ស្ទើរតែរលូនពេក - ការថយចុះនៃភាគរយនៃករណីវិជ្ជមាន COVID-19 ក្នុងរយៈពេលមួយសម្រាប់ខោនធីក្នុងរដ្ឋផ្លរីដា។ អ្នកអាចសន្និដ្ឋានយ៉ាងងាយស្រួលថាករណីកំពុងធ្លាក់ចុះ។ អស្ចារ្យណាស់ ការមើលឃើញបង្ហាញយ៉ាងត្រឹមត្រូវនូវទិន្នន័យ។ បញ្ហាគឺនៅក្នុងទិន្នន័យ។ ដូច្នេះ វាជាការលម្អៀងដ៏អាក្រក់ជាងមុនព្រោះអ្នកមើលមិនឃើញ។ វាត្រូវបានបញ្ចូលទៅក្នុងទិន្នន័យ។ សំណួរដែលអ្នកត្រូវសួររួមមាន តើអ្នកណាកំពុងត្រូវបានសាកល្បង? ម្យ៉ាងទៀតតើអ្វីជាភាគបែង ឬចំនួនប្រជាជនដែលយើងកំពុងមើលជាភាគរយ។ ការសន្មត់គឺថាវាជាចំនួនប្រជាជនទាំងមូល ឬយ៉ាងហោចណាស់ជាគំរូតំណាង។
ទោះជាយ៉ាងណាក៏ដោយ ក្នុងអំឡុងពេលនេះ នៅក្នុងស្រុកនេះ ការធ្វើតេស្តត្រូវបានផ្តល់ឱ្យមនុស្សចំនួនកំណត់ប៉ុណ្ណោះ។ ពួកគេត្រូវតែមានរោគសញ្ញាដូចកូវីដ ឬបានធ្វើដំណើរថ្មីៗនេះទៅកាន់ប្រទេសមួយក្នុងបញ្ជីកន្លែងក្តៅ។ បន្ថែមពីនេះទៀត ការយល់ច្រឡំលទ្ធផលគឺការពិតដែលថាការធ្វើតេស្តវិជ្ជមាននីមួយៗត្រូវបានរាប់ ហើយការធ្វើតេស្តអវិជ្ជមាននីមួយៗត្រូវបានរាប់។ ជាធម្មតា នៅពេលដែលបុគ្គលម្នាក់បានធ្វើតេស្តវិជ្ជមាន ពួកគេនឹងធ្វើតេស្តម្តងទៀតនៅពេលដែលមេរោគបានដំណើរការ ហើយនឹងធ្វើតេស្តអវិជ្ជមាន។ ដូច្នេះ ក្នុងន័យមួយ សម្រាប់ករណីវិជ្ជមាននីមួយៗ មានករណីធ្វើតេស្តអវិជ្ជមាន ដែលលុបចោលវាចេញ។ ការធ្វើតេស្តភាគច្រើនគឺអវិជ្ជមាន ហើយការធ្វើតេស្តអវិជ្ជមានរបស់បុគ្គលម្នាក់ៗត្រូវបានរាប់។ អ្នកអាចមើលឃើញពីរបៀបដែលទិន្នន័យមានភាពលំអៀង និងមិនមានប្រយោជន៍ជាពិសេសសម្រាប់ការសម្រេចចិត្ត។
ការបញ្ចូល និងការបណ្តុះបណ្តាល AI មានភាពលំអៀង
យ៉ាងហោចណាស់មានវិធីពីរយ៉ាងដែល AI អាចនាំទៅរកលទ្ធផលលំអៀង៖ ចាប់ផ្តើមជាមួយទិន្នន័យលំអៀង ឬប្រើក្បួនដោះស្រាយលំអៀងដើម្បីដំណើរការទិន្នន័យត្រឹមត្រូវ។
ការបញ្ចូលដោយលំអៀង
ពួកយើងជាច្រើនស្ថិតនៅក្រោមការចាប់អារម្មណ៍ថា AI អាចជឿទុកចិត្តបានក្នុងការបំបែកលេខ អនុវត្តក្បួនដោះស្រាយរបស់វា និងបញ្ចេញការវិភាគដែលអាចទុកចិត្តបាននៃទិន្នន័យ។ Artificial Intelligence អាចឆ្លាតដូចដែលវាត្រូវបានបណ្តុះបណ្តាល។ ប្រសិនបើទិន្នន័យដែលវាត្រូវបានបណ្តុះបណ្តាលគឺមិនល្អឥតខ្ចោះ លទ្ធផល ឬការសន្និដ្ឋាននឹងមិនអាចជឿទុកចិត្តបានឡើយ។ ស្រដៀងគ្នាទៅនឹងករណីខាងលើនៃភាពលំអៀងនៃការស្ទង់មតិ មានវិធីមួយចំនួនដែលទិន្នន័យអាចមាន លំអៀង នៅក្នុងការរៀនម៉ាស៊ីន: ។
- ការលំអៀងគំរូ – សំណុំទិន្នន័យបណ្តុះបណ្តាលមិនតំណាងឱ្យប្រជាជនទាំងមូលទេ។
- ភាពលំអៀងនៃការបដិសេធ – ពេលខ្លះអ្វីដែលហាក់ដូចជាហួសហេតុគឺពិតជាត្រឹមត្រូវ ឬកន្លែងដែលយើងគូសបន្ទាត់លើអ្វីដែលត្រូវរួមបញ្ចូល (លេខកូដប្រៃសណីយ៍ កាលបរិច្ឆេទ។ល។)។
- ភាពលំអៀងនៃរង្វាស់ - អនុសញ្ញាគឺត្រូវវាស់ជានិច្ចពីកណ្តាល និងខាងក្រោមនៃ meniscus ឧទាហរណ៍ នៅពេលវាស់វត្ថុរាវក្នុងដបទឹក ឬបំពង់សាកល្បង (លើកលែងតែបារត។ )
- រំលឹកឡើងវិញនូវភាពលំអៀង - នៅពេលដែលការស្រាវជ្រាវអាស្រ័យលើការចងចាំរបស់អ្នកចូលរួម។
- ភាពលំអៀងរបស់អ្នកសង្កេតការណ៍ – អ្នកវិទ្យាសាស្ត្រដូចជាមនុស្សទាំងអស់មានទំនោរចង់ឃើញអ្វីដែលពួកគេរំពឹងថានឹងឃើញ។
- ភាពលំអៀងខាងផ្លូវភេទ និងការរើសអើងជាតិសាសន៍ – ភេទ ឬការរើសអើងអាចតំណាងឱ្យលើស ឬក្រោម។
- ភាពលំអៀងនៃសមាគម - ទិន្នន័យពង្រឹងភាពមិនច្បាស់លាស់
ដើម្បីឱ្យ AI ត្រឡប់លទ្ធផលដែលអាចទុកចិត្តបាន ទិន្នន័យបណ្តុះបណ្តាលរបស់វាត្រូវការតំណាងឱ្យពិភពពិត។ ដូចដែលយើងបានពិភាក្សានៅក្នុងអត្ថបទប្លក់មុន ការរៀបចំទិន្នន័យមានសារៈសំខាន់ និងដូចគម្រោងទិន្នន័យផ្សេងទៀតដែរ។ ទិន្នន័យដែលមិនគួរឱ្យទុកចិត្តអាចបង្រៀនប្រព័ន្ធរៀនម៉ាស៊ីននូវមេរៀនខុស ហើយនឹងនាំឱ្យមានការសន្និដ្ឋានខុស។ ដែលបាននិយាយថា "ទិន្នន័យទាំងអស់មានភាពលំអៀង។ នេះមិនមែនជាការភ័យខ្លាចទេ។ នេះជាការពិត»។ – វេជ្ជបណ្ឌិត Sanjiv M. Narayan, សាលាវេជ្ជសាស្ត្រសាកលវិទ្យាល័យស្ទែនហ្វដ។
ការប្រើប្រាស់ទិន្នន័យលំអៀងសម្រាប់ការបណ្តុះបណ្តាលបាននាំឱ្យមានការបរាជ័យ AI គួរឱ្យកត់សម្គាល់មួយចំនួន។ (ឧទាហរណ៍ នៅទីនេះ និង នៅទីនេះ, ការស្រាវជ្រាវ នៅទីនេះ..)
ក្បួនដោះស្រាយលំអៀង
ក្បួនដោះស្រាយគឺជាសំណុំនៃច្បាប់ដែលទទួលយកការបញ្ចូល និងបង្កើតលទ្ធផលដើម្បីឆ្លើយបញ្ហាអាជីវកម្ម។ ជារឿយៗពួកវាជាមែកធាងការសម្រេចចិត្តដែលបានកំណត់យ៉ាងល្អ។ ក្បួនដោះស្រាយមានអារម្មណ៍ថាដូចជាប្រអប់ខ្មៅ។ គ្មាននរណាម្នាក់ប្រាកដថាតើពួកគេធ្វើការដោយរបៀបណាទេ សូម្បីតែវាក៏ដោយ ក្រុមហ៊ុនដែលប្រើពួកគេ។. អូ ហើយពួកគេច្រើនតែមានកម្មសិទ្ធិ។ ធម្មជាតិដ៏អាថ៌កំបាំង និងស្មុគ្រស្មាញរបស់ពួកគេ គឺជាហេតុផលមួយដែលហេតុអ្វីបានជាក្បួនដោះស្រាយលំអៀងមានភាពអសុរោះ។ .
ពិចារណាលើក្បួនដោះស្រាយ AI ក្នុងវេជ្ជសាស្ត្រ ធនធានមនុស្ស ឬហិរញ្ញវត្ថុ ដែលគិតគូរពីការប្រកួតប្រជែង។ ប្រសិនបើការប្រណាំងជាកត្តា នោះក្បួនដោះស្រាយមិនអាចពិការភ្នែកខាងពូជសាសន៍បានទេ។ នេះមិនមែនជាទ្រឹស្តីទេ។ បញ្ហាបែបនេះត្រូវបានរកឃើញនៅក្នុងពិភពពិតដោយប្រើ AI នៅក្នុង ការជួល, ចែករំលែកជិះ, ពាក្យសុំប្រាក់កម្ចីs, និង ការប្តូរតម្រងនោម.
ចំណុចសំខាន់គឺថា ប្រសិនបើទិន្នន័យ ឬក្បួនដោះស្រាយរបស់អ្នកមិនល្អ អាក្រក់ជាងគ្មានប្រយោជន៍ ពួកគេអាចនឹងមានគ្រោះថ្នាក់។ មានរឿងដូចជា "សវនកម្មអាល់ហ្គោរីត” គោលដៅគឺដើម្បីជួយអង្គការកំណត់អត្តសញ្ញាណហានិភ័យដែលអាចកើតមានទាក់ទងនឹងក្បួនដោះស្រាយ ដោយសារវាទាក់ទងនឹងភាពយុត្តិធម៌ ការលំអៀង និងការរើសអើង។ កន្លែងផ្សេងទៀត Facebook កំពុងប្រើ AI ដើម្បីប្រឆាំងនឹងភាពលំអៀងនៅក្នុង AI ។
មនុស្សមានភាពលំអៀង
យើងមានមនុស្សនៅសងខាងនៃសមីការ។ មនុស្សកំពុងរៀបចំការវិភាគ ហើយមនុស្សកំពុងទទួលបានព័ត៌មាន។ មានអ្នកស្រាវជ្រាវ ហើយមានអ្នកអាន។ នៅក្នុងការទំនាក់ទំនងណាមួយអាចមានបញ្ហាក្នុងការបញ្ជូនឬទទួលភ្ញៀវ។
ឧទាហរណ៍យកអាកាសធាតុ។ តើ«ឱកាសនៃភ្លៀង»មានន័យដូចម្តេច? ទី១ តើអ្នកឧតុនិយមនិយាយថាអាចមានភ្លៀងធ្លាក់មានន័យយ៉ាងណា? នេះបើតាមរដ្ឋាភិបាលអាមេរិក សេវាអាកាសធាតុជាតិឱកាសនៃភ្លៀង ឬអ្វីដែលគេហៅថា Probability of Precipitation (PoP) គឺជាធាតុមួយក្នុងចំណោមធាតុដែលគេយល់តិចបំផុតនៅក្នុងការព្យាករណ៍អាកាសធាតុ។ វាមាននិយមន័យស្តង់ដារ៖ "ប្រូបាប៊ីលីតេនៃទឹកភ្លៀងគឺគ្រាន់តែជាប្រូបាប៊ីលីតេស្ថិតិនៃ 0.01" អ៊ីញ [sic] នៃភ្លៀងធ្លាក់ច្រើននៅតំបន់ដែលបានផ្តល់ឱ្យនៅក្នុងតំបន់ព្យាករណ៍ក្នុងរយៈពេលដែលបានបញ្ជាក់។" "តំបន់ដែលបានផ្តល់ឱ្យ" គឺជាតំបន់ព្យាករណ៍ ឬ ខroadតំបន់ចាក់។ នោះមានន័យថា ប្រូបាប៊ីលីតេនៃទឹកភ្លៀងជាផ្លូវការ អាស្រ័យលើទំនុកចិត្តថា វានឹងភ្លៀងនៅកន្លែងណាមួយនៅក្នុងតំបន់ និងភាគរយនៃតំបន់ដែលនឹងសើម។ ម្យ៉ាងវិញទៀត ប្រសិនបើអ្នកឧតុនិយមមានទំនុកចិត្តថានឹងមានភ្លៀងធ្លាក់នៅតំបន់ព្យាករណ៍ (Confidence = 100%) នោះ PoP តំណាងឱ្យផ្នែកនៃតំបន់ដែលនឹងទទួលបានទឹកភ្លៀង។
ផ្លូវប៉ារីស; ថ្ងៃវស្សាGustave Caillebotte (1848-1894) វិទ្យាស្ថានសិល្បៈឈីកាហ្គោ ដែនសាធារណៈ
ឱកាសមានភ្លៀងធ្លាក់អាស្រ័យលើទំនុកចិត្ត និងតំបន់។ ខ្ញុំមិនបានដឹងទេ។ ខ្ញុំសង្ស័យអ្នកដទៃក៏មិនដឹងដែរ។ ប្រហែល 75% នៃចំនួនប្រជាជនមិនយល់ច្បាស់អំពីរបៀបដែល PoP ត្រូវបានគណនា ឬមានន័យថាតំណាងឱ្យអ្វីនោះទេ។ ដូច្នេះ តើយើងត្រូវបានគេបោកបញ្ឆោត ឬក៏ជាបញ្ហានៃការយល់ឃើញ។ ចូរហៅថាការយល់ឃើញទឹកភ្លៀង។ តើយើងបន្ទោសអ្នកព្យាករណ៍អាកាសធាតុទេ? ដើម្បីឱ្យមានភាពយុត្តិធម៌មានខ្លះ ការយល់ច្រឡំ ក្នុងចំណោមអ្នកព្យាករណ៍អាកាសធាតុផងដែរ។ ក្នុងមួយ ការស្ទង់មតិមួយ43% នៃអ្នកឧតុនិយមដែលបានស្ទង់មតិបាននិយាយថា មានភាពស៊ីសង្វាក់គ្នាតិចតួចបំផុតនៅក្នុងនិយមន័យនៃ PoP ។
ការវិភាគខ្លួនវាមានភាពលំអៀង
ក្នុងចំណោមកត្តាជះឥទ្ធិពលទាំងប្រាំ ការវិភាគខ្លួនឯងអាចជារឿងគួរឲ្យភ្ញាក់ផ្អើលបំផុត។ នៅក្នុងការស្រាវជ្រាវបែបវិទ្យាសាស្ត្រដែលនាំឱ្យក្រដាសដែលបានពិនិត្យឡើងវិញត្រូវបានបោះពុម្ព ជាទូទៅទ្រឹស្តីមួយត្រូវបានសម្មតិកម្ម វិធីសាស្រ្តត្រូវបានកំណត់ដើម្បីសាកល្បងសម្មតិកម្ម ទិន្នន័យត្រូវបានប្រមូល បន្ទាប់មកទិន្នន័យត្រូវបានវិភាគ។ ប្រភេទនៃការវិភាគដែលត្រូវបានធ្វើ និងរបៀបដែលវាត្រូវបានធ្វើ ត្រូវបានគេវាយតម្លៃតិចតួចនៅក្នុងរបៀបដែលវាប៉ះពាល់ដល់ការសន្និដ្ឋាន។ នៅក្នុង ក្រដាស ចេញផ្សាយនៅដើមឆ្នាំនេះ (ខែមករា ឆ្នាំ 2022) នៅក្នុងទិនានុប្បវត្តិអន្តរជាតិនៃជំងឺមហារីក អ្នកនិពន្ធបានវាយតម្លៃថាតើលទ្ធផលនៃការសាកល្បងដែលបានគ្រប់គ្រងដោយចៃដន្យ និងការសិក្សាសង្កេតមើលក្រោយ។ ការរកឃើញរបស់ពួកគេបានសន្និដ្ឋានថា
តាមរយៈការផ្លាស់ប្តូរជម្រើសវិភាគក្នុងការស្រាវជ្រាវប្រសិទ្ធភាពប្រៀបធៀប យើងបានបង្កើតលទ្ធផលផ្ទុយ។ លទ្ធផលរបស់យើងបានបង្ហាញថា ការសិក្សាសង្កេតមើលក្រោយមួយចំនួនអាចរកឃើញការព្យាបាលដែលធ្វើអោយប្រសើរឡើងនូវលទ្ធផលសម្រាប់អ្នកជំងឺ ខណៈពេលដែលការសិក្សាស្រដៀងគ្នាមួយផ្សេងទៀតអាចរកឃើញថាវាមិនបានធ្វើនោះទេ ដោយគ្រាន់តែផ្អែកលើជម្រើសវិភាគប៉ុណ្ណោះ។
កាលពីមុន ពេលអានអត្ថបទទិនានុប្បវត្តិវិទ្យាសាស្ត្រ បើអ្នកដូចខ្ញុំ អ្នកប្រហែលជាធ្លាប់គិតថា លទ្ធផល ឬការសន្និដ្ឋាន សុទ្ធតែជាទិន្នន័យ។ ឥឡូវនេះ វាបង្ហាញថាលទ្ធផល ឬថាតើសម្មតិកម្មដំបូងត្រូវបានបញ្ជាក់ ឬបដិសេធក៏អាចអាស្រ័យលើវិធីសាស្រ្តនៃការវិភាគផងដែរ។
មួយទៀត ការសិក្សា បានរកឃើញលទ្ធផលស្រដៀងគ្នា។ អត្ថបទ, អ្នកវិភាគជាច្រើន សំណុំទិន្នន័យតែមួយ៖ ធ្វើឱ្យមានតម្លាភាព របៀបដែលការប្រែប្រួលនៃជម្រើសវិភាគប៉ះពាល់ដល់លទ្ធផល។ ពិពណ៌នាអំពីរបៀបដែលពួកគេបានផ្តល់សំណុំទិន្នន័យដូចគ្នាទៅក្រុមចំនួន 29 ដើម្បីវិភាគ។ ការវិភាគទិន្នន័យ ត្រូវបានគេមើលឃើញថាជាដំណើរការដ៏តឹងរ៉ឹង និងច្បាស់លាស់ ដែលនាំទៅដល់ការសន្និដ្ឋានតែមួយ។
ថ្វីបើមានការបង្ហាញរបស់អ្នកជំនាញក៏ដោយ វាជាការងាយស្រួលក្នុងការមើលរំលងការពិតដែលថាលទ្ធផលអាចអាស្រ័យលើយុទ្ធសាស្ត្រវិភាគដែលបានជ្រើសរើស ដែលខ្លួនវាត្រូវបានបង្កប់ដោយទ្រឹស្តី ការសន្មត់ និងចំណុចជម្រើស។ ក្នុងករណីជាច្រើន មានវិធីសាស្រ្តសមហេតុផលជាច្រើន (និងមិនសមហេតុផល) ក្នុងការវាយតម្លៃទិន្នន័យដែលទាក់ទងនឹងសំណួរស្រាវជ្រាវមួយ។
ក្រុមអ្នកស្រាវជ្រាវបានប្រមូលប្រភពនៃការវិភាគទិន្នន័យ ហើយឈានដល់ការសន្និដ្ឋានថាការស្រាវជ្រាវទាំងអស់រួមបញ្ចូលការសម្រេចចិត្តជាប្រធានបទ – រួមទាំងប្រភេទនៃការវិភាគដែលត្រូវប្រើ – ដែលអាចប៉ះពាល់ដល់លទ្ធផលចុងក្រោយនៃការសិក្សា។
អនុសាសន៍មួយទៀត អ្នកស្រាវជ្រាវ អ្នកដែលបានវិភាគការសិក្សាខាងលើគឺត្រូវប្រុងប្រយ័ត្ននៅពេលប្រើក្រដាសតែមួយក្នុងការសម្រេចចិត្ត ឬធ្វើការសន្និដ្ឋាន។
ដោះស្រាយភាពលំអៀងក្នុងការវិភាគ
នេះគ្រាន់តែមានន័យថាជារឿងគួរឲ្យប្រុងប្រយ័ត្ន។ ចំណេះដឹងអាចការពារយើងពីការលួចបន្លំ។ ការយល់ដឹងកាន់តែច្រើនអំពីវិធីសាស្រ្តដែលអាចធ្វើទៅបានដែលម៉ាស៊ីនស្កេនអាចប្រើដើម្បីបញ្ឆោតយើង នោះយើងទំនងជាមិនសូវត្រូវបានគេយកទៅនិយាយដោយនិយាយខុសទិសដៅរបស់អ្នករើសយក ឬការនិយាយដោយរលូននៃការលេង Ponzi ។ ដូច្នេះវាគឺជាមួយនឹងការយល់ដឹង និងទទួលស្គាល់ភាពលំអៀងដែលអាចប៉ះពាល់ដល់ការវិភាគរបស់យើង។ ប្រសិនបើយើងដឹងពីឥទ្ធិពលដែលអាចកើតមាន យើងប្រហែលជាអាចបង្ហាញរឿងបានប្រសើរជាងមុន ហើយចុងក្រោយធ្វើការសម្រេចចិត្តបានប្រសើរជាងមុន។