ანალიტიკა ტყუილი

by Aug 31, 2022BI/Analytics0 კომენტარები

ანალიტიკა ტყუილი

ანალიზის მიკერძოება

 

მარკ ტვენმა საკამათო თქვა: ”არსებობს სამი სახის ტყუილი: ტყუილი, დაწყევლილი ტყუილი და ანალიტიკა". 

ჩვენ მიგვაჩნია, რომ ანალიტიკა გვაძლევს სასარგებლო, ქმედითუნარიან შეხედულებებს. რასაც ჩვენ ხშირად ვერ ვაცნობიერებთ, არის ის, თუ როგორ მოქმედებს ჩვენი და სხვების მიკერძოებები პასუხებზე, რომლებსაც ყველაზე დახვეწილი პროგრამული უზრუნველყოფა და სისტემები გვაძლევენ. ზოგჯერ შეიძლება ჩვენზე არაკეთილსინდისიერად მანიპულირებდნენ, მაგრამ, უფრო ხშირად, ეს შეიძლება იყოს დახვეწილი და არაცნობიერი მიკერძოება, რომელიც შემოიჭრება ჩვენს ანალიტიკაში. მიკერძოებული ანალიტიკის უკან მოტივაცია მრავალია. ზოგჯერ მიუკერძოებელ შედეგებზე, რომლებსაც მეცნიერებისგან ველით, გავლენას ახდენს 1) დახვეწილი არჩევანი, თუ როგორ არის წარმოდგენილი მონაცემები, 2) არათანმიმდევრული ან არარეპრეზენტატიული მონაცემები, 3) როგორ სწავლობენ ხელოვნური ინტელექტის სისტემები, 4) მკვლევარების ან სხვა მცდელობის უცოდინრობა, არაკომპეტენტურობა. ამბის მოყოლა, 5) თავად ანალიზი.    

პრეზენტაცია არის მიკერძოებული

ზოგიერთი ტყუილი უფრო ადვილი შესამჩნევია, ვიდრე სხვები. როდესაც იცით, რა უნდა მოძებნოთ, უფრო ადვილად აღმოაჩენთ პოტენციურს შეცდომაში შემყვანი გრაფიკები და სქემები. 

სულ მცირე მონაცემების შეცდომაში შეყვანის ხუთი გზა: 1) შეზღუდული მონაცემთა ნაკრების ჩვენება, 2). აჩვენეთ დაუკავშირებელი კორელაციები, 3) მონაცემების არაზუსტად ჩვენება, 4) მონაცემების არატრადიციულად ჩვენება, ან 5). ზედმეტად გამარტივებული მონაცემების ჩვენება.

შეზღუდული მონაცემთა ნაკრების ჩვენება

მონაცემების შეზღუდვა ან მონაცემთა არა შემთხვევითი მონაკვეთის ხელით არჩევა ხშირად შეიძლება გვიყვეს ისტორიას, რომელიც არ შეესაბამება დიდ სურათს. ცუდი შერჩევა, ან ალუბლის კრეფა, არის, როდესაც ანალიტიკოსი იყენებს არაწარმომადგენლობით ნიმუშს უფრო დიდი ჯგუფის წარმოსადგენად. 

მარტში, საქართველოს საზოგადოებრივი ჯანდაცვის დეპარტამენტი გამოაქვეყნა ეს სქემა, როგორც ყოველდღიური სტატუსის ანგარიშის ნაწილი. ის რეალურად ბადებს უფრო მეტ კითხვას, ვიდრე პასუხობს.  

ერთ-ერთი, რაც აკლია, არის კონტექსტი. მაგალითად, სასარგებლო იქნება იმის ცოდნა, თუ რამდენია მოსახლეობის პროცენტი თითოეული ასაკობრივი ჯგუფისთვის. მარტივი გარეგნობის ტორტის დიაგრამის კიდევ ერთი პრობლემა არის არათანაბარი ასაკობრივი ჯგუფები. 0-17 აქვს 18 წელი, 18-59 აქვს 42, 60+ არის ღია, მაგრამ აქვს დაახლოებით 40 წელი. დასკვნა, მხოლოდ ამ გრაფიკიდან გამომდინარე, არის ის, რომ შემთხვევების უმრავლესობა 18-59 წლის ასაკობრივ ჯგუფშია. 60+ წლის ასაკობრივი ჯგუფი, როგორც ჩანს, ნაკლებად მძიმედ არის დაზარალებული COVID-ის შემთხვევებით. მაგრამ ეს არ არის მთელი ამბავი.

შედარებისთვის, ამ განსხვავებული მონაცემების ნაკრები CDC ვებსაიტზე ასახავს COVID-ის შემთხვევებს ასაკობრივი ჯგუფის მიხედვით, დამატებით მონაცემებთან ერთად აშშ-ს მოსახლეობის პროცენტული მაჩვენებელი, რომელიც არის თითოეულ ასაკობრივ დიაპაზონში.  

Ეს უკეთესია. მეტი კონტექსტი გვაქვს. ჩვენ ვხედავთ, რომ 18-29, 30-39, 40-49 ასაკობრივ ჯგუფებს აქვთ შემთხვევების უფრო მაღალი პროცენტი, ვიდრე ასაკობრივი ჯგუფის პროცენტი მოსახლეობაში. ჯერ კიდევ არის არათანაბარი ასაკობრივი ჯგუფები. რატომ არის 16-17 წელი ცალკე ასაკობრივ ჯგუფად? ეს არ არის მთელი ამბავი, მაგრამ ექსპერტებმა დაწერეს სვეტები, გააკეთეს პროგნოზები და მანდატები ამაზე ნაკლებზე. ცხადია, კოვიდთან ერთად, ასაკის გარდა, მრავალი ცვლადია, რაც გავლენას ახდენს დადებით შემთხვევად ჩათვლაზე: ვაქცინაციის სტატუსი, ტესტების ხელმისაწვდომობა, ტესტირების რაოდენობა, თანმხლები დაავადებები და მრავალი სხვა. შემთხვევების რაოდენობა თავისთავად არასრულ სურათს იძლევა. ექსპერტების უმეტესობა ასევე ათვალიერებს დაღუპულთა რაოდენობას, ან დაღუპულთა პროცენტებს 100,000 მოსახლეზე, ან შემთხვევის შედეგად დაღუპულთა რიცხვზე, რათა გაერკვნენ, თუ როგორ მოქმედებს COVID თითოეულ ასაკობრივ ჯგუფზე.

აჩვენეთ ერთმანეთთან დაკავშირებული კორელაციები

ცხადია, არსებობს ა ძლიერი კორელაცია აშშ-ს მეცნიერებას, კოსმოსსა და ტექნოლოგიაზე დახარჯულ ხარჯებსა და ჩამოხრჩობით, დახრჩობითა და დახრჩობით თვითმკვლელთა რიცხვს შორის. კორელაცია არის 99.79%, თითქმის სრულყოფილად ემთხვევა.  

მაგრამ ვინ დაამტკიცებს, რომ ეს რაღაცნაირად დაკავშირებულია, ან ერთი იწვევს მეორეს? არის სხვა ნაკლებად ექსტრემალური მაგალითები, მაგრამ არანაკლებ ყალბი. მსგავსი ძლიერი კორელაციაა Scripps-ის ეროვნული მართლწერის ფუტკრის გამარჯვებულ სიტყვაში და შხამიანი ობობების მიერ მოკლული ადამიანების რაოდენობას შორის. დამთხვევა? Შენ გადაწყვიტე.

ამ მონაცემების დიაგრამის კიდევ ერთი გზა, რომელიც შეიძლება იყოს ნაკლებად შეცდომაში შეყვანილი, იქნება ნულის ჩართვა ორივე Y-ღერძზე.

მონაცემების არაზუსტად ჩვენება

დან როგორ ვაჩვენოთ მონაცემები ცუდადაშშ-ს ჯორჯიის შტატმა წარმოადგინა ტოპ 5 ქვეყანა, სადაც ყველაზე მეტი დადასტურებული COVID-19 შემთხვევაა.

კანონიერად გამოიყურება, არა? აშკარად შეინიშნება COVID-19 დადასტურებული შემთხვევების კლების ტენდენცია. შეგიძლიათ წაიკითხოთ X ღერძი? X ღერძი წარმოადგენს დროს. როგორც წესი, თარიღები გაიზრდება მარცხნიდან მარჯვნივ. აქ ჩვენ ვხედავთ მცირე დროში მოგზაურობას X ღერძზე: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

დაელოდე? Რა? X ღერძი არ არის დალაგებული ქრონოლოგიურად. ასე რომ, რაც არ უნდა ლამაზად გამოიყურებოდეს ტენდენცია, ჩვენ არ შეგვიძლია რაიმე დასკვნის გაკეთება. თუ თარიღები შეკვეთილია, ზოლები შემთხვევების რაოდენობისთვის უფრო მეტად აჩვენებს ხერხის ნიმუშს, ვიდრე რაიმე სახის ტენდენციას.

აქ მარტივი გამოსავალი არის თარიღების დალაგება ისე, როგორც ამას კალენდარი აკეთებს.

მონაცემების არატრადიციულად ჩვენება

ჩვენ ყველანი დაკავებული ვართ. ჩვენმა ტვინმა გვასწავლა სწრაფი განსჯის გაკეთება იმ ვარაუდებზე დაყრდნობით, რომლებიც თანმიმდევრული იყო ჩვენს სამყაროში. მაგალითად, ყველა გრაფიკი, რომელიც ოდესმე მინახავს, ​​აჩვენებს x- და y- ღერძებს ნულზე, ან ყველაზე დაბალ მნიშვნელობებზე. მოკლედ რომ გადავხედოთ ამ სქემას, რა დასკვნების გამოტანა შეგიძლიათ ფლორიდის ეფექტის შესახებ „დააჭირე შენს კანონს.”? მე მრცხვენია ამის აღიარება, მაგრამ ამ გრაფიკმა თავიდან მომატყუა. შენი თვალი მოხერხებულად მიიპყრობს ტექსტს და ისარს გრაფიკის შუაში. ქვემოთ არის ზემოთ ამ გრაფიკში. ეს შეიძლება არ იყოს ტყუილი - ყველა მონაცემი იქ არის. მაგრამ, უნდა ვიფიქრო, რომ ეს არის მოტყუება. თუ ჯერ არ გინახავთ, y-ღერძზე ნული არის ზედა. ასე რომ, როდესაც მონაცემები მცირდება, ეს ნიშნავს უფრო მეტ სიკვდილს. ეს სქემა აჩვენებს ცეცხლსასროლი იარაღის გამოყენებით მკვლელობების რაოდენობას გაიზარდა 2005 წლის შემდეგ, რაც მიუთითებს მიმდინარე ტენდენციით ქვემოთ.

მონაცემების ზედმეტად გამარტივებული ჩვენება

მონაცემთა ზედმეტად გამარტივების ერთი მაგალითი ჩანს, როდესაც ანალიტიკოსები სარგებლობენ სიმპსონის პარადოქსით. ეს არის ფენომენი, რომელიც ხდება მაშინ, როდესაც გაერთიანებული მონაცემები აჩვენებს განსხვავებულ დასკვნას, ვიდრე მაშინ, როდესაც ისინი იყოფა ქვეჯგუფებად. ამ ხაფანგში ადვილად მოხვდება მაღალი დონის აგრეგირებული პროცენტების დათვალიერებისას. სიმპსონის პარადოქსის სამსახურში ერთ-ერთი ყველაზე ნათელი ილუსტრაცია უკავშირდება batting საშუალოდ.  

აქ ჩვენ ვხედავთ, რომ დერეკ ჯეტერს აქვს უფრო მაღალი საერთო ბატის საშუალო მაჩვენებელი, ვიდრე დევიდ ჯასტისი 1995 და 1996 წლების სეზონებისთვის. პარადოქსი ჩნდება მაშინ, როდესაც ვაცნობიერებთ, რომ იუსტიციის საუკეთესოდ აჯობა ჯეტერს ორივე წლის განმავლობაში საშუალოდ. თუ ყურადღებით დააკვირდებით, ლოგიკურია, როცა ხვდებით, რომ ჯეტერს 4 წელს დაახლოებით 1996-ჯერ მეტი ღამურა (მნიშვნელი) ჰყავდა, 007 წელს საშუალოდ 1996-ით დაბალი. მაშინ როცა ჯასტისს ჰქონდა დაახლოებით 10-ჯერ მეტი ღამურების რაოდენობა მხოლოდ . 003 უმაღლესი საშუალო 1995 წელს.

პრეზენტაცია აშკარად ჩანს, მაგრამ სიმპსონის პარადოქსმა, შეგნებულად თუ უნებურად, არასწორი დასკვნები გამოიწვია. ცოტა ხნის წინ, იყო სიმპსონის პარადოქსის მაგალითები ახალ ამბებში და სოციალურ მედიაში, რომლებიც დაკავშირებულია ვაქცინასთან და COVID-ის სიკვდილიანობასთან. ერთი გრაფიკი გვიჩვენებს ხაზოვან დიაგრამას, რომელიც ადარებს სიკვდილიანობას აცრებსა და არავაქცინირებს შორის 10-59 წლის ასაკის ადამიანებისთვის. დიაგრამა გვიჩვენებს, რომ არავაქცინირებულებს მუდმივად აქვთ სიკვდილიანობის დაბალი მაჩვენებელი. Რა ხდება აქ?  

საკითხი ისეთივეა, როგორიც ჩვენ ვხედავთ საშუალოდ. მნიშვნელი ამ შემთხვევაში არის ინდივიდების რაოდენობა თითოეულ ასაკობრივ ჯგუფში. გრაფიკი აერთიანებს ჯგუფებს, რომლებსაც აქვთ განსხვავებული შედეგები. ცალკე თუ გადავხედავთ უფროს ასაკობრივ ჯგუფს, 50-59 წლამდე, ვნახავთ, რომ აცრილი უკეთესად იქცევა. ანალოგიურად, თუ გადავხედავთ 10-49, ასევე ვხედავთ, რომ ვაქცინირებული მგზავრობა უკეთესია. პარადოქსულია, როდესაც კომბინირებულ კომპლექტს ვუყურებთ, არავაქცინირებულს, როგორც ჩანს, უარესი შედეგი აქვს. ამ გზით, თქვენ შეძლებთ საპირისპირო არგუმენტების მტკიცებას მონაცემების გამოყენებით.

მონაცემები მიკერძოებულია

მონაცემები ყოველთვის არ შეიძლება იყოს სანდო. სამეცნიერო საზოგადოებაშიც კი, გამოკითხულ მკვლევართა მესამედზე მეტმა აღიარა "საეჭვო კვლევის პრაქტიკა."  კიდევ ერთი კვლევის თაღლითობის დეტექტივი ამბობს, „ძალიან უფრო მეტი თაღლითობაა მონაცემებში - ცხრილებში, ხაზოვან დიაგრამებში, მონაცემების თანმიმდევრობით [– ვიდრე ჩვენ რეალურად აღმოვაჩენთ]. ნებისმიერს, რომელიც ზის თავის სამზარეულოს მაგიდასთან, შეუძლია განათავსოს რამდენიმე რიცხვი ცხრილებში და გააკეთოს ხაზის გრაფიკი, რომელიც დამაჯერებლად გამოიყურება.

ეს პირველი მაგალითად როგორც ჩანს, ვიღაცამ ეს გააკეთა. მე არ ვამბობ, რომ ეს არის თაღლითობა, მაგრამ როგორც გამოკითხვა, ის უბრალოდ არ ქმნის რაიმე მონაცემს, რომელიც ხელს უწყობს ინფორმირებული გადაწყვეტილების მიღებას. როგორც ჩანს, გამოკითხვამ რესპონდენტებს ჰკითხა მათი აზრი ბენზინგასამართი სადგურის ყავის ან სხვა შესაბამისი მიმდინარე მოვლენის შესახებ. 

  1. Superb 
  2. დიდი
  3. ძალიან კარგი 

მე მოვაჭრე Twitter-ის პოსტი დამნაშავე მხარის შესახებ მითითებების წასაშლელად, მაგრამ ეს არის კვლევის საბოლოო შედეგების სრული სქემა. ასეთი გამოკითხვები არც თუ ისე იშვიათია. ცხადია, პასუხების შედეგად მიღებული მონაცემებით შექმნილი ნებისმიერი დიაგრამა აჩვენებს, რომ ყავა არ უნდა გამოტოვოთ.  

პრობლემა ის არის, რომ თქვენ რომ მოგცეთ ეს გამოკითხვა და არ იპოვეთ პასუხი, რომელიც შეესაბამება თქვენს აზროვნებას, თქვენ გამოტოვებდით გამოკითხვას. ეს შეიძლება იყოს უკიდურესი მაგალითი იმისა, თუ როგორ შეიძლება შეიქმნას არასანდო მონაცემები. თუმცა, გამოკითხვის ცუდმა დიზაინმა შეიძლება გამოიწვიოს ნაკლები პასუხი და მათ, ვინც პასუხობს, მხოლოდ ერთი აზრი აქვს, ეს მხოლოდ ხარისხის საკითხია. მონაცემები მიკერძოებულია.

მონაცემთა მიკერძოების ეს მეორე მაგალითი არის ფაილებიდან "COVID 19-ის ყველაზე ცუდი შეცდომაში შემყვანი გრაფიკები". 

ისევ და ისევ, ეს არის დახვეწილი და არა მთლიანად აშკარა. ზოლიანი დიაგრამა გვიჩვენებს გლუვი - თითქმის ზედმეტად გლუვი - კლება პოზიტიური COVID-19 შემთხვევების პროცენტში დროთა განმავლობაში ფლორიდაში მდებარე ქვეყნისთვის. თქვენ შეგიძლიათ მარტივად გამოიტანოთ დასკვნა, რომ შემთხვევები მცირდება. ეს შესანიშნავია, ვიზუალიზაცია ზუსტად წარმოადგენს მონაცემებს. პრობლემა მონაცემებშია. ასე რომ, ეს უფრო მზაკვრული მიკერძოებაა, რადგან თქვენ ამას ვერ ხედავთ. ის ჩადებულია მონაცემებში. კითხვები, რომლებიც უნდა დაუსვათ, მოიცავს ვინ გადის ტესტირებას? სხვა სიტყვებით რომ ვთქვათ, რა არის მნიშვნელი, ანუ პოპულაცია, რომლის პროცენტს ვუყურებთ. ვარაუდობენ, რომ ეს არის მთელი პოპულაცია, ან სულ მცირე, წარმომადგენლობითი ნიმუში.

თუმცა, ამ პერიოდის განმავლობაში, ამ საგრაფოში ტესტები მხოლოდ შეზღუდულ რაოდენობას ატარებდნენ. მათ უნდა ჰქონოდათ COVID-ის მსგავსი სიმპტომები, ან ცოტა ხნის წინ იმოგზაურეს ქვეყანაში ცხელ წერტილების სიაში. შედეგების დამატებით დამაბნეველია ის ფაქტი, რომ თითოეული დადებითი ტესტი დაითვალა და ყოველი უარყოფითი ტესტი დაითვალა. როგორც წესი, როდესაც ინდივიდი დადებითად გამოდის, ისინი ხელახლა ატარებენ ტესტირებას, როდესაც ვირუსი გაივლის და უარყოფითად გამოდის. ასე რომ, გარკვეული გაგებით, თითოეული დადებითი შემთხვევისთვის არის უარყოფითი ტესტის შემთხვევა, რომელიც აუქმებს მას. ტესტების აბსოლუტური უმრავლესობა უარყოფითია და თითოეული ინდივიდის უარყოფითი ტესტები დათვლილია. თქვენ ხედავთ, თუ როგორ არის მონაცემები მიკერძოებული და არ არის განსაკუთრებით სასარგებლო გადაწყვეტილების მისაღებად. 

AI შეყვანა და ტრენინგი არის მიკერძოებული

არსებობს სულ მცირე ორი გზა, რომლითაც AI-ს შეუძლია მიკერძოებულ შედეგებამდე მიგვიყვანოს: დაწყებული მიკერძოებული მონაცემებით, ან მიკერძოებული ალგორითმების გამოყენება სწორი მონაცემების დასამუშავებლად.  

მიკერძოებული შეყვანა

ბევრ ჩვენგანს ექმნება შთაბეჭდილება, რომ ხელოვნური ინტელექტის ნდობა შეიძლება იყოს ნომრების შეკუმშვა, მისი ალგორითმების გამოყენება და მონაცემების საიმედო ანალიზი. ხელოვნური ინტელექტი შეიძლება იყოს ისეთივე ჭკვიანი, როგორიც არის გაწვრთნილი. თუ მონაცემები, რომლებზედაც ის სწავლობს, არასრულყოფილია, შედეგების ან დასკვნების ნდობაც არ იქნება შესაძლებელი. კვლევის მიკერძოების ზემოთ მოყვანილი შემთხვევის მსგავსად, არსებობს მრავალი გზა, რომლითაც შესაძლებელია მონაცემები მიკერძოებული მანქანათმცოდნეობაში:.  

  • ნიმუშის მიკერძოება - ტრენინგის მონაცემთა ნაკრები არ წარმოადგენს მთელ მოსახლეობას.
  • გამორიცხვის მიკერძოება - ხანდახან ის, რაც ჩანს, გარედან არის რეალურად მართებული, ან, სადაც ჩვენ ვსვამთ ხაზს, თუ რა უნდა შევიტანოთ (ზიფ კოდები, თარიღები და ა.შ.).
  • საზომი მიკერძოება - კონვენცია არის ყოველთვის გაზომვა მენისკის ცენტრიდან და ქვედადან, მაგალითად, სითხეების გაზომვისას მოცულობით კოლბებში ან საცდელ მილებში (ვერცხლისწყლის გარდა.)
  • გაიხსენეთ მიკერძოება – როდესაც კვლევა დამოკიდებულია მონაწილეთა მეხსიერებაზე.
  • დამკვირვებლის მიკერძოება - მეცნიერები, ისევე როგორც ყველა ადამიანი, უფრო მიდრეკილნი არიან დაინახონ ის, რისი დანახვაც ელიან.
  • სექსისტური და რასისტული მიკერძოება - სქესი ან რასა შეიძლება იყოს ზედმეტად ან ნაკლებად წარმოდგენილი.  
  • ასოციაციის მიკერძოება - მონაცემები აძლიერებს სტერეოტიპებს

იმისათვის, რომ ხელოვნურმა ინტელექტუალმა დააბრუნოს სანდო შედეგები, მისი სასწავლო მონაცემები რეალურ სამყაროს უნდა წარმოადგენდეს. როგორც წინა ბლოგის სტატიაში განვიხილეთ, მონაცემთა მომზადება კრიტიკულია და როგორც ნებისმიერი სხვა მონაცემთა პროექტი. არასანდო მონაცემებმა შეიძლება ასწავლოს მანქანური სწავლების სისტემებს არასწორი გაკვეთილი და გამოიწვიოს არასწორი დასკვნა. ამის თქმით, ”ყველა მონაცემი მიკერძოებულია. ეს არ არის პარანოია. ეს ფაქტია.” - დოქტორი Sanjiv M. Narayanსტენფორდის უნივერსიტეტის მედიცინის სკოლა.

ტრენინგისთვის მიკერძოებული მონაცემების გამოყენებამ გამოიწვია მრავალი შესამჩნევი ხელოვნური ინტელექტის ჩავარდნა. (მაგალითები აქ დაწკაპუნებით მდე აქ დაწკაპუნებით, კვლევა აქ დაწკაპუნებით..)

მიკერძოებული ალგორითმები

ალგორითმი არის წესების ერთობლიობა, რომელიც იღებს შეყვანას და ქმნის გამომავალს ბიზნეს პრობლემის საპასუხოდ. ისინი ხშირად კარგად განსაზღვრული გადაწყვეტილების ხეებია. ალგორითმები შავ ყუთებს ჰგავს. არავინ იცის, როგორ მუშაობენ ისინი, ხშირად, არც კი კომპანიები, რომლებიც იყენებენ მათ. ოჰ, და ისინი ხშირად საკუთრებაში არიან. მათი იდუმალი და რთული ბუნება არის ერთ-ერთი მიზეზი იმისა, თუ რატომ არის მიკერძოებული ალგორითმები ასეთი მზაკვრული. . 

განვიხილოთ ხელოვნური ინტელექტის ალგორითმები მედიცინაში, HR ან ფინანსებში, რომელიც ითვალისწინებს რასას. თუ რასა არის ფაქტორი, ალგორითმი არ შეიძლება იყოს რასობრივად ბრმა. ეს არ არის თეორიული. მსგავსი პრობლემები აღმოაჩინეს რეალურ სამყაროში ხელოვნური ინტელექტის გამოყენებით დაქირავება, ride-share, სესხის განაცხადიs, და თირკმლის გადანერგვა

დასკვნა ის არის, რომ თუ თქვენი მონაცემები ან ალგორითმები ცუდია, უსარგებლოზე უარესია, ისინი შეიძლება საშიში იყოს. არსებობს ისეთი რამ, როგორიცაა "ალგორითმული აუდიტი.” მიზანია დაეხმაროს ორგანიზაციებს ალგორითმთან დაკავშირებული პოტენციური რისკების იდენტიფიცირებაში, რადგან ის ეხება სამართლიანობას, მიკერძოებას და დისკრიმინაციას. სხვაგან, Facebook იყენებს AI-ს AI-ში მიკერძოების წინააღმდეგ საბრძოლველად.

ხალხი მიკერძოებულია

ჩვენ გვყავს ხალხი განტოლების ორივე მხარეს. ხალხი ამზადებს ანალიზს და ხალხი იღებს ინფორმაციას. არიან მკვლევარები და არიან მკითხველები. ნებისმიერ კომუნიკაციაში, შეიძლება იყოს პრობლემები გადაცემაში ან მიღებაში.

ავიღოთ ამინდი, მაგალითად. რას ნიშნავს "წვიმის შანსი"? პირველი, რას გულისხმობენ მეტეოროლოგები, როცა ამბობენ, რომ წვიმის შანსია? აშშ-ის მთავრობის განცხადებით ეროვნული ამინდის სამსახურისწვიმის შანსი, ან რასაც ისინი უწოდებენ ნალექების ალბათობას (PoP), ამინდის პროგნოზის ერთ-ერთი ყველაზე ნაკლებად გასაგები ელემენტია. მას აქვს სტანდარტული განმარტება: ”ნალექის ალბათობა არის უბრალოდ სტატისტიკური ალბათობა 0.01 ინჩი [sic] მეტი [sic] ნალექების მოცემულ ზონაში მოცემულ საპროგნოზო ზონაში მითითებულ დროში.” „მოცემული ტერიტორია“ არის საპროგნოზო არე, ან ბroadჩამოსხმული ფართობი. ეს ნიშნავს, რომ ნალექების ოფიციალური ალბათობა დამოკიდებულია ნდობაზე, რომ წვიმს სადმე რაიონში და იმ ტერიტორიის პროცენტზე, რომელიც დასველდება. სხვა სიტყვებით რომ ვთქვათ, თუ მეტეოროლოგი დარწმუნებულია, რომ წვიმს საპროგნოზო ზონაში (დარწმუნებულობა = 100%), მაშინ PoP წარმოადგენს ტერიტორიის ნაწილს, რომელიც მიიღებს წვიმას.  

პარიზის ქუჩა; Წვიმიანი დღეგუსტავ კაილბოტი (1848-1894) ჩიკაგოს ხელოვნების ინსტიტუტის საჯარო დომენი

წვიმის ალბათობა დამოკიდებულია როგორც თავდაჯერებულობაზე, ასევე ფართობზე. ეგ არ ვიცოდი. მეეჭვება, ეს არც სხვებმა იციან. მოსახლეობის დაახლოებით 75%-ს ზუსტად არ ესმის, როგორ გამოითვლება PoP ან რის წარმოდგენას ისახავს მიზნად. მაშ, გვატყუებენ თუ ეს აღქმის პრობლემაა. მოდით ვუწოდოთ მას ნალექების აღქმა. სინოპტიკოსებს ვაბრალებთ? სამართლიანობისთვის, არის რამდენიმე მორცხვობა სინოპტიკოსებს შორისაც. Ერთში გამოკითხვის, გამოკითხულ მეტეოროლოგთა 43%-მა თქვა, რომ PoP-ის განმარტებაში ძალიან მცირე თანმიმდევრულობაა.

თავად ანალიზი არის მიკერძოებული

ხუთი გავლენის ფაქტორიდან, თავად ანალიზი შეიძლება იყოს ყველაზე გასაკვირი. სამეცნიერო კვლევაში, რომლის შედეგადაც გამოქვეყნდება მიმოხილული ნაშრომი, როგორც წესი, დგება თეორიის ჰიპოთეზა, განისაზღვრება მეთოდები ჰიპოთეზის შესამოწმებლად, გროვდება მონაცემები და შემდეგ ხდება მონაცემების ანალიზი. ანალიზის ტიპი, რომელიც კეთდება და როგორ კეთდება, არ არის შეფასებული იმით, თუ როგორ მოქმედებს ის დასკვნებზე. Ში ქაღალდი ამ წლის დასაწყისში (2022 წლის იანვარი) გამოქვეყნდა კიბოს საერთაშორისო ჟურნალში, ავტორებმა შეაფასეს თუ არა რანდომიზებული კონტროლირებადი კვლევების შედეგები და რეტროსპექტული დაკვირვების კვლევები. მათმა დასკვნებმა დაასკვნეს, რომ

შედარებითი ეფექტურობის კვლევაში ანალიტიკური არჩევანის ცვალებადობით, ჩვენ საპირისპირო შედეგები მივიღეთ. ჩვენი შედეგები ვარაუდობს, რომ ზოგიერთმა რეტროსპექტულმა დაკვირვებამ შეიძლება აღმოაჩინოს, რომ მკურნალობა აუმჯობესებს შედეგებს პაციენტებისთვის, ხოლო სხვა მსგავსმა კვლევამ შეიძლება აღმოაჩინოს, რომ ეს არა, უბრალოდ ანალიტიკურ არჩევანზე დაყრდნობით.

წარსულში, სამეცნიერო ჟურნალის სტატიის კითხვისას, თუ თქვენ ჩემნაირი ხართ, შეიძლება გეგონებოდათ, რომ შედეგები ან დასკვნები მხოლოდ მონაცემებს ეხება. ახლა, როგორც ჩანს, შედეგები ან საწყისი ჰიპოთეზის დადასტურება ან უარყოფა შეიძლება ასევე იყოს დამოკიდებული ანალიზის მეთოდზე.

კიდევ ერთი შესწავლა იპოვა მსგავსი შედეგები. Სტატია, ბევრი ანალიტიკოსი, ერთი მონაცემთა ნაკრები: გამჭვირვალე გახადოს, თუ როგორ მოქმედებს ანალიტიკური არჩევანის ვარიაციები შედეგებზე, აღწერს, თუ როგორ მისცეს ერთი და იგივე მონაცემთა ნაკრები 29 სხვადასხვა გუნდს გასაანალიზებლად. მონაცემთა ანალიზი ხშირად განიხილება, როგორც მკაცრი, კარგად განსაზღვრული პროცესი, რომელიც იწვევს ერთ დასკვნას.  

მეთოდოლოგების პრეტენზიების მიუხედავად, ადვილია უგულებელვყოთ ის ფაქტი, რომ შედეგები შეიძლება დამოკიდებული იყოს არჩეულ ანალიტიკურ სტრატეგიაზე, რომელიც თავად არის გამსჭვალული თეორიით, ვარაუდებითა და არჩევანის წერტილებით. ხშირ შემთხვევაში, არსებობს მრავალი გონივრული (და ბევრი არაგონივრული) მიდგომა მონაცემთა შეფასებისას, რომლებიც ეყრდნობა კვლევის საკითხს.

მკვლევარებმა გამოიყენეს მონაცემთა ანალიზი და მივიდნენ დასკვნამდე, რომ ყველა კვლევა მოიცავს სუბიექტურ გადაწყვეტილებებს - მათ შორის, თუ რომელი ტიპის ანალიზი გამოიყენონ - რამაც შეიძლება გავლენა მოახდინოს კვლევის საბოლოო შედეგზე.

სხვისი რეკომენდაცია მკვლევარი ვინც გააანალიზა ზემოხსენებული კვლევა, ფრთხილად უნდა იყოს ერთი ნაშრომის გამოყენებისას გადაწყვეტილების მიღებისას ან დასკვნების გამოტანისას.

მიკერძოების მიმართვა ანალიტიკაში

ეს უბრალოდ გამაფრთხილებელი ამბავია. ცოდნას შეუძლია დაგვიცვას თაღლითობისგან. რაც უფრო მეტად ერკვევა სკანერმა ჩვენს მოსატყუებლად შესაძლო მეთოდების შესახებ, მით ნაკლებია ალბათობა იმისა, რომ შეგვეწიოს, ვთქვათ, ჯიბის ქურდობის არასწორი მიმართულება, ან პონცის პიესის მშვიდი საუბარი. ასე რომ, ეს არის პოტენციური მიკერძოების გაგება და აღიარება, რაც გავლენას ახდენს ჩვენს ანალიტიკაზე. თუ ჩვენ გვესმის პოტენციური გავლენის შესახებ, ჩვენ შევძლებთ ამბის უკეთ წარმოჩენას და საბოლოოდ უკეთესი გადაწყვეტილებების მიღებას.  

BI/Analyticsსხვადასხვა
რატომ არის Microsoft Excel #1 ანალიტიკური ინსტრუმენტი
რატომ არის Excel #1 ანალიტიკის ინსტრუმენტი?

რატომ არის Excel #1 ანალიტიკის ინსტრუმენტი?

  ეს არის იაფი და მარტივი. Microsoft Excel ცხრილების პროგრამული უზრუნველყოფა, სავარაუდოდ, უკვე დაინსტალირებულია ბიზნეს მომხმარებლის კომპიუტერზე. და ბევრი მომხმარებელი დღეს უკვე ექვემდებარება Microsoft Office პროგრამულ უზრუნველყოფას საშუალო სკოლის დაწყებიდან ან უფრო ადრეც. ეს მუხლჩაუხრელი პასუხი...

წაიკითხე მეტი

BI/Analyticsსხვადასხვა
გაასუფთავეთ თქვენი შეხედულებები: ანალიტიკის საგაზაფხულო დასუფთავების გზამკვლევი

გაასუფთავეთ თქვენი შეხედულებები: ანალიტიკის საგაზაფხულო დასუფთავების გზამკვლევი

Unclutter Your Insights ანალიტიკის საგაზაფხულო დასუფთავების გზამკვლევი ახალი წელი იწყება ხმაურით; წლის ბოლოს ანგარიშები იქმნება და განიხილება, შემდეგ კი ყველა ადგენს თანმიმდევრულ სამუშაო გრაფიკს. რაც უფრო გრძელია დღეები და ხეები და ყვავილები ყვავის,...

წაიკითხე მეტი

BI/Analyticsსხვადასხვა
NY Style vs. Chicago Style Pizza: გემრიელი დებატები

NY Style vs. Chicago Style Pizza: გემრიელი დებატები

ჩვენი ლტოლვის დაკმაყოფილებისას, ცოტა რამ შეიძლება ეწინააღმდეგებოდეს პიცის ცხელი ნაჭრის სიხარულს. ნიუ-იორკის სტილისა და ჩიკაგოს სტილის პიცას შორის დებატები ათწლეულების განმავლობაში იწვევს მგზნებარე დისკუსიებს. თითოეულ სტილს აქვს თავისი უნიკალური მახასიათებლები და ერთგული თაყვანისმცემლები....

წაიკითხე მეტი

BI/Analyticsკოგნოსსის ანალიტიკა
Cognos Query Studio
თქვენს მომხმარებლებს სურთ თავიანთი შეკითხვის სტუდია

თქვენს მომხმარებლებს სურთ თავიანთი შეკითხვის სტუდია

IBM Cognos Analytics 12-ის გამოშვებით, Query Studio-სა და Analysis Studio-ს დიდი ხნის გამოცხადებული გაუქმება საბოლოოდ იქნა მიწოდებული Cognos Analytics-ის ვერსიით, ამ სტუდიების გამოკლებით. მიუხედავად იმისა, რომ ეს არ უნდა იყოს მოულოდნელი ადამიანების უმეტესობისთვის, რომლებიც ჩართულნი არიან ამ სფეროში...

წაიკითხე მეტი

BI/Analyticsსხვადასხვა
რეალურია თუ არა ტეილორ სვიფტის ეფექტი?

რეალურია თუ არა ტეილორ სვიფტის ეფექტი?

ზოგიერთი კრიტიკოსი ვარაუდობს, რომ ის ზრდის Super Bowl-ის ბილეთების ფასებს. ალბათ შარშანდელ რეკორდულ მაჩვენებელზე მეტი და შესაძლოა 3 წლის მთვარეზე მეტიც...

წაიკითხე მეტი

BI/Analytics
ანალიტიკის კატალოგები – ამომავალი ვარსკვლავი ანალიტიკის ეკოსისტემაში

ანალიტიკის კატალოგები – ამომავალი ვარსკვლავი ანალიტიკის ეკოსისტემაში

შესავალი, როგორც ტექნოლოგიების მთავარი ოფიცერი (CTO), მე ყოველთვის ვზრუნავ განვითარებად ტექნოლოგიებზე, რომლებიც გარდაქმნის ანალიტიკასთან მიახლოების გზას. ერთ-ერთი ასეთი ტექნოლოგია, რომელმაც ჩემი ყურადღება მიიპყრო ბოლო რამდენიმე წლის განმავლობაში და უზარმაზარ დაპირებას იძლევა, არის ანალიტიკა...

წაიკითხე მეტი