Ψέμα Analytics

by 31 Αυγούστου 2022BI/Analyticsσχόλια 0

Ψέμα Analytics

Η προκατάληψη της ανάλυσης

 

Ο Μαρκ Τουέιν είπε αμφιλεγόμενα κάτι σαν, «Υπάρχουν τρία είδη ψεμάτων: ψέματα, καταραμένα ψέματα και analytics. " 

Θεωρούμε δεδομένο ότι τα αναλυτικά στοιχεία μάς δίνουν χρήσιμες, χρήσιμες πληροφορίες. Αυτό που συχνά δεν συνειδητοποιούμε είναι πώς οι δικές μας προκαταλήψεις και αυτές των άλλων επηρεάζουν τις απαντήσεις που μας δίνονται ακόμη και από το πιο εξελιγμένο λογισμικό και συστήματα. Μερικές φορές, μπορεί να μας χειραγωγούν ανέντιμα, αλλά, πιο συχνά, μπορεί να είναι λεπτές και ασυνείδητες προκαταλήψεις που εισχωρούν στα αναλυτικά μας στοιχεία. Τα κίνητρα πίσω από την προκατειλημμένη ανάλυση είναι πολλαπλά. Μερικές φορές τα αμερόληπτα αποτελέσματα που περιμένουμε από την επιστήμη επηρεάζονται από 1) λεπτές επιλογές στον τρόπο παρουσίασης των δεδομένων, 2) ασυνεπή ή μη αντιπροσωπευτικά δεδομένα, 3) τον τρόπο εκπαίδευσης των συστημάτων τεχνητής νοημοσύνης, 4) την άγνοια, την ανικανότητα των ερευνητών ή άλλων που προσπαθούν να πει την ιστορία, 5) την ίδια την ανάλυση.    

Η παρουσίαση είναι μεροληπτική

Μερικά από τα ψέματα είναι πιο εύκολο να εντοπιστούν από άλλα. Όταν ξέρετε τι να αναζητήσετε, μπορείτε να εντοπίσετε πιο εύκολα πιθανά παραπλανητικά γραφήματα και γραφήματα. 

Υπάρχουν τουλάχιστον πέντε τρόποι για την παραπλανητική εμφάνιση δεδομένων: 1) Εμφάνιση περιορισμένου συνόλου δεδομένων, 2). Εμφάνιση άσχετων συσχετίσεων, 3) Εμφάνιση δεδομένων με ανακριβή, 4) Εμφάνιση δεδομένων ασυνήθιστα ή 5). Εμφάνιση δεδομένων υπερβολικά απλοποιημένα.

Εμφάνιση περιορισμένου συνόλου δεδομένων

Ο περιορισμός των δεδομένων ή η επιλογή με το χέρι μιας μη τυχαίας ενότητας των δεδομένων μπορεί συχνά να πει μια ιστορία που δεν συνάδει με τη μεγάλη εικόνα. Η κακή δειγματοληψία ή η συλλογή κερασιών είναι όταν ο αναλυτής χρησιμοποιεί ένα μη αντιπροσωπευτικό δείγμα για να αντιπροσωπεύσει μια μεγαλύτερη ομάδα. 

Τον Μάρτιο του 2020, Τμήμα Δημόσιας Υγείας της Γεωργίας δημοσίευσε αυτό το γράφημα ως μέρος της ημερήσιας αναφοράς κατάστασής του. Στην πραγματικότητα εγείρει περισσότερα ερωτήματα από όσα απαντά.  

Ένα από τα πράγματα που λείπει είναι το πλαίσιο. Για παράδειγμα, θα ήταν χρήσιμο να γνωρίζουμε ποιο είναι το ποσοστό του πληθυσμού για κάθε ηλικιακή ομάδα. Ένα άλλο ζήτημα με το απλό όψη γράφημα πίτας είναι οι ανομοιόμορφες ηλικιακές ομάδες. Το 0-17 έχει 18 χρόνια, το 18-59 έχει 42, το 60+ είναι ανοιχτό, αλλά έχει περίπου 40 χρόνια. Το συμπέρασμα, με βάση αυτό το διάγραμμα και μόνο, είναι ότι η πλειονότητα των περιπτώσεων αφορά την ηλικιακή ομάδα 18-59 ετών. Η ηλικιακή ομάδα άνω των 60 ετών φαίνεται να επηρεάζεται λιγότερο σοβαρά από τα κρούσματα COVID. Αλλά αυτό δεν είναι όλη η ιστορία.

Για σύγκριση, αυτό το διαφορετικό σύνολο δεδομένων στο Ιστοσελίδα CDC καταγράφει τα κρούσματα COVID ανά ηλικιακή ομάδα με τα πρόσθετα δεδομένα σχετικά με το ποσοστό του πληθυσμού των ΗΠΑ που βρίσκεται σε κάθε ηλικιακό εύρος.  

Αυτο ειναι καλυτερο. Έχουμε περισσότερο πλαίσιο. Μπορούμε να δούμε ότι οι ηλικιακές ομάδες 18-29, 30-39, 40-49 έχουν όλες υψηλότερο ποσοστό κρουσμάτων από το ποσοστό της ηλικιακής ομάδας στον πληθυσμό. Υπάρχουν ακόμη κάποιες άνισες ηλικιακές ομάδες. Γιατί τα 16-17 είναι ξεχωριστή ηλικιακή ομάδα; Ωστόσο, αυτή δεν είναι ολόκληρη η ιστορία, αλλά οι ειδικοί έχουν γράψει στήλες, έχουν κάνει προβλέψεις και εντολές για λιγότερο από αυτό. Προφανώς, με τον COVID, υπάρχουν πολλές μεταβλητές εκτός από την ηλικία που επηρεάζουν το να υπολογίζεται ως θετικό κρούσμα: κατάσταση εμβολιασμού, διαθεσιμότητα τεστ, αριθμός φορών που ελέγχθηκαν, συννοσηρότητες και πολλές άλλες. Ο αριθμός των περιπτώσεων, από μόνος του, παρέχει μια ελλιπή εικόνα. Οι περισσότεροι ειδικοί εξετάζουν επίσης τον αριθμό θανάτων ή τα ποσοστά θανάτων ανά 100,000 πληθυσμού ή τα περιστατικά θανάτων για να δουν πώς επηρεάζει ο COVID κάθε ηλικιακή ομάδα.

Εμφάνιση άσχετων συσχετισμών

Προφανώς, υπάρχει ένα ισχυρή συσχέτιση μεταξύ των δαπανών των ΗΠΑ για την επιστήμη, το διάστημα και την τεχνολογία και τον αριθμό των αυτοκτονιών με απαγχονισμό, στραγγαλισμό και ασφυξία. Η συσχέτιση είναι 99.79%, σχεδόν τέλεια ταίριασμα.  

Ποιος, όμως, θα υποστήριζε ότι αυτά σχετίζονται με κάποιο τρόπο ή ότι το ένα προκαλεί το άλλο; Υπάρχουν και άλλα λιγότερο ακραία παραδείγματα, αλλά όχι λιγότερο ψευδή. Υπάρχει μια παρόμοια ισχυρή συσχέτιση μεταξύ των Γραμμάτων στο Winning Word of Scripps National Spelling Bee και του αριθμού των ανθρώπων που σκοτώθηκαν από τις Venomous Spiders. Σύμπτωση? Εσύ αποφασίζεις.

Ένας άλλος τρόπος για να καταγράψετε αυτά τα δεδομένα που μπορεί να είναι λιγότερο παραπλανητικός θα ήταν να συμπεριλάβετε το μηδέν και στους δύο άξονες Υ.

Εμφάνιση δεδομένων με ανακρίβεια

Από Πώς να εμφανίσετε δεδομένα άσχημα, η Πολιτεία της Τζόρτζια των ΗΠΑ παρουσίασε τις 5 κορυφαίες κομητείες με τον μεγαλύτερο αριθμό επιβεβαιωμένων κρουσμάτων COVID-19.

Φαίνεται νόμιμο, σωστά; Υπάρχει σαφώς πτωτική τάση επιβεβαιωμένων κρουσμάτων COVID-19. Μπορείτε να διαβάσετε τον άξονα Χ; Ο άξονας Χ αντιπροσωπεύει το χρόνο. Συνήθως, οι ημερομηνίες αυξάνονται από αριστερά προς τα δεξιά. Εδώ, βλέπουμε ένα μικρό ταξίδι στο χρόνο στον άξονα Χ: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

Περίμενε? Τι? Ο άξονας Χ δεν ταξινομείται χρονολογικά. Έτσι, όσο ωραία και αν φαίνεται η τάση, δεν μπορούμε να βγάλουμε συμπεράσματα. Εάν οι ημερομηνίες έχουν παραγγελθεί, οι ράβδοι για τον αριθμό των θηκών δείχνουν περισσότερο ένα μοτίβο πριονιού παρά οποιοδήποτε είδος τάσης.

Η εύκολη λύση εδώ είναι να ταξινομήσετε τις ημερομηνίες με τον τρόπο που κάνει ένα ημερολόγιο.

Εμφάνιση δεδομένων με αντισυμβατικό τρόπο

Είμαστε όλοι απασχολημένοι. Ο εγκέφαλός μας μας έχει διδάξει να κάνουμε γρήγορες κρίσεις με βάση υποθέσεις που ήταν συνεπείς στον κόσμο μας. Για παράδειγμα, κάθε γράφημα που έχω δει ποτέ δείχνει τους άξονες x και y που συναντώνται σε μηδενικές ή χαμηλότερες τιμές. Κοιτάζοντας εν συντομία αυτό το διάγραμμα, ποια συμπεράσματα μπορείτε να βγάλετε σχετικά με την επίδραση της Φλόριντα «Στηρίξτε τον θεμελιώδη νόμο σας.”; Ντρέπομαι να το παραδεχτώ, αλλά αυτό το γράφημα με κορόιδεψε στην αρχή. Το μάτι σας τραβάει εύκολα το κείμενο και το βέλος στη μέση του γραφικού. Το κάτω είναι επάνω σε αυτό το γράφημα. Μπορεί να μην είναι ψέμα – τα δεδομένα είναι εντάξει. Αλλά, πρέπει να σκεφτώ ότι έχει σκοπό να εξαπατήσει. Αν δεν το έχετε δει ακόμα, το μηδέν στον άξονα y βρίσκεται στην κορυφή. Έτσι, καθώς τα δεδομένα μειώνονται, αυτό σημαίνει περισσότερους θανάτους. Αυτό το διάγραμμα δείχνει ότι ο αριθμός των δολοφονιών με χρήση πυροβόλων όπλων αυξημένη μετά το 2005, όπως φαίνεται από τη συνεχιζόμενη τάση κάτω.

Εμφάνιση των δεδομένων υπερβολικά απλοποιημένα

Ένα παράδειγμα υπερβολικής απλοποίησης των δεδομένων μπορεί να φανεί όταν οι αναλυτές εκμεταλλεύονται το παράδοξο του Simpson. Αυτό είναι ένα φαινόμενο που συμβαίνει όταν τα συγκεντρωτικά δεδομένα φαίνεται να αποδεικνύουν διαφορετικό συμπέρασμα από ότι όταν χωρίζονται σε υποσύνολα. Αυτή η παγίδα είναι εύκολο να πέσει κανείς όταν εξετάζει συγκεντρωτικά ποσοστά υψηλού επιπέδου. Μια από τις πιο ξεκάθαρες απεικονίσεις του Simpson's Paradox at work σχετίζεται με κτυπώντας μέσους όρους.  

Εδώ βλέπουμε ότι ο Derek Jeter έχει υψηλότερο συνολικό μέσο όρο κτυπήματος από τον David Justice για τις σεζόν 1995 και 1996. Το παράδοξο έρχεται όταν συνειδητοποιούμε ότι ο Justice κέρδισε τον Jeter με μέσο όρο και τα δύο αυτά χρόνια. Αν κοιτάξετε προσεκτικά, είναι λογικό όταν συνειδητοποιήσετε ότι ο Jeter είχε περίπου 4 φορές περισσότερες νυχτερίδες (ο παρονομαστής) το 1996 με 007 χαμηλότερο μέσο όρο το 1996. Ενώ, η Justice είχε περίπου 10 φορές τον αριθμό των νυχτερίδων μόνο σε . 003 υψηλότερος μέσος όρος το 1995.

Η παρουσίαση φαίνεται ξεκάθαρη, αλλά το παράδοξο του Simpson, συνειδητά ή άθελά του, οδήγησε σε εσφαλμένα συμπεράσματα. Πρόσφατα, υπήρξαν παραδείγματα του Simpson's Paradox στις ειδήσεις και στα μέσα κοινωνικής δικτύωσης που σχετίζονται με τα εμβόλια και τη θνησιμότητα από τον COVID. Ενας διάγραμμα δείχνει ένα γραμμικό γράφημα που συγκρίνει τα ποσοστά θνησιμότητας μεταξύ εμβολιασμένων και μη εμβολιασμένων για άτομα ηλικίας 10-59 ετών. Το διάγραμμα δείχνει ότι οι μη εμβολιασμένοι έχουν σταθερά χαμηλότερο ποσοστό θνησιμότητας. Τι συμβαίνει εδώ?  

Το θέμα είναι παρόμοιο με αυτό που βλέπουμε με τους μέσους όρους κτυπήματος. Ο παρονομαστής σε αυτή την περίπτωση είναι ο αριθμός των ατόμων σε κάθε ηλικιακή ομάδα. Το γράφημα συνδυάζει ομάδες που έχουν διαφορετικά αποτελέσματα. Αν κοιτάξουμε ξεχωριστά τη μεγαλύτερη ηλικιακή ομάδα, 50-59, βλέπουμε ότι οι εμβολιασμένοι τα πηγαίνουν καλύτερα. Ομοίως, αν δούμε το 10-49, βλέπουμε επίσης ότι οι εμβολιασμένοι τα πηγαίνουν καλύτερα. Παραδόξως, όταν εξετάζουμε το συνδυασμένο σετ, οι μη εμβολιασμένοι φαίνεται να έχουν χειρότερη έκβαση. Με αυτόν τον τρόπο, μπορείτε να υποστηρίξετε αντίθετα επιχειρήματα χρησιμοποιώντας τα δεδομένα.

Τα δεδομένα είναι μεροληπτικά

Τα δεδομένα δεν είναι πάντα αξιόπιστα. Ακόμη και στην επιστημονική κοινότητα, πάνω από το ένα τρίτο των ερευνητών που ερωτήθηκαν το παραδέχτηκαν «Αμφισβήτητες ερευνητικές πρακτικές».  Άλλος ντετέκτιβ έρευνας απάτης λέει, «Υπάρχει πολύ πιθανόν πολύ περισσότερη απάτη στα δεδομένα – πίνακες, γραφήματα γραμμής, δεδομένα αλληλουχίας [– από ό,τι ανακαλύπτουμε στην πραγματικότητα]. Οποιοσδήποτε κάθεται στο τραπέζι της κουζίνας του μπορεί να βάλει μερικούς αριθμούς σε ένα υπολογιστικό φύλλο και να κάνει ένα γραμμικό γράφημα που φαίνεται πειστικό».

Αυτό πρώτα παράδειγμα φαίνεται ότι κάποιος έκανε ακριβώς αυτό. Δεν λέω ότι πρόκειται για απάτη, αλλά ως έρευνα, απλώς δεν δημιουργεί δεδομένα που συμβάλλουν σε μια τεκμηριωμένη απόφαση. Φαίνεται ότι η έρευνα ρώτησε τους ερωτηθέντες σχετικά με τη γνώμη τους για τον καφέ βενζινάδικου ή κάποιο άλλο σχετικό τρέχον γεγονός.. 

  1. Υπέροχος 
  2. Μεγάλος
  3. Πολύ καλά 

Έκοψα την ανάρτηση στο Twitter για να αφαιρέσω τις αναφορές στον ένοχο, αλλά αυτό είναι το πραγματικό ολόκληρο γράφημα των τελικών αποτελεσμάτων της έρευνας. Τέτοιες έρευνες δεν είναι ασυνήθιστες. Προφανώς, οποιοδήποτε διάγραμμα που δημιουργήθηκε από τα δεδομένα που προκύπτουν από τις απαντήσεις θα δείξει ότι ο εν λόγω καφές δεν πρέπει να χάσετε.  

Το πρόβλημα είναι ότι αν σας είχε δοθεί αυτή η έρευνα και δεν βρίσκατε απάντηση που να ταιριάζει με τη σκέψη σας, θα παραλείψατε την έρευνα. Αυτό μπορεί να είναι ένα ακραίο παράδειγμα του τρόπου με τον οποίο μπορούν να δημιουργηθούν αναξιόπιστα δεδομένα. Ο κακός σχεδιασμός της έρευνας, ωστόσο, μπορεί να οδηγήσει σε λιγότερες απαντήσεις και όσοι απαντούν έχουν μόνο μία γνώμη, είναι απλώς θέμα βαθμού. Τα δεδομένα είναι προκατειλημμένα.

Αυτό το δεύτερο παράδειγμα προκατάληψης δεδομένων προέρχεται από τα αρχεία του "Τα χειρότερα παραπλανητικά γραφήματα COVID 19. " 

Και πάλι, αυτό είναι λεπτό και όχι εντελώς προφανές. Το γράφημα ράβδων δείχνει μια ομαλή - σχεδόν υπερβολικά ομαλή - μείωση του ποσοστού των θετικών κρουσμάτων COVID-19 με την πάροδο του χρόνου για μια κομητεία στη Φλόριντα. Θα μπορούσες εύκολα να βγάλεις το συμπέρασμα ότι τα κρούσματα μειώνονται. Αυτό είναι υπέροχο, η οπτικοποίηση αντιπροσωπεύει με ακρίβεια τα δεδομένα. Το πρόβλημα είναι στα δεδομένα. Άρα, είναι μια πιο ύπουλη προκατάληψη γιατί δεν μπορείς να το δεις. Είναι ψημένο στα δεδομένα. Οι ερωτήσεις που πρέπει να κάνετε, περιλαμβάνουν ποιος εξετάζεται; Με άλλα λόγια, ποιος είναι ο παρονομαστής ή ο πληθυσμός του οποίου εξετάζουμε ένα ποσοστό. Η υπόθεση είναι ότι είναι ολόκληρος ο πληθυσμός, ή τουλάχιστον, ένα αντιπροσωπευτικό δείγμα.

Ωστόσο, κατά τη διάρκεια αυτής της περιόδου, σε αυτόν τον νομό, οι εξετάσεις δόθηκαν μόνο σε περιορισμένο αριθμό ατόμων. Έπρεπε να έχουν συμπτώματα που μοιάζουν με τον COVID ή είχαν ταξιδέψει πρόσφατα σε μια χώρα στη λίστα με τα hot spots. Επιπρόσθετα συγχέοντας τα αποτελέσματα είναι το γεγονός ότι κάθε θετικό τεστ μετρήθηκε και κάθε αρνητικό τεστ μετρήθηκε. Τυπικά, όταν ένα άτομο βγήκε θετικό, θα έκανε ξανά το τεστ όταν ο ιός είχε τελειώσει και θα ήταν αρνητικό. Άρα, κατά μία έννοια, για κάθε θετικό κρούσμα, υπάρχει ένα αρνητικό τεστ που το ακυρώνει. Η συντριπτική πλειοψηφία των τεστ είναι αρνητικά και μετρήθηκαν τα αρνητικά τεστ κάθε ατόμου. Μπορείτε να δείτε πώς τα δεδομένα είναι προκατειλημμένα και δεν είναι ιδιαίτερα χρήσιμα για τη λήψη αποφάσεων. 

Η εισαγωγή και η εκπαίδευση AI είναι μεροληπτική

Υπάρχουν τουλάχιστον δύο τρόποι με τους οποίους η τεχνητή νοημοσύνη μπορεί να οδηγήσει σε μεροληπτικά αποτελέσματα: ξεκινώντας με μεροληπτικά δεδομένα ή χρησιμοποιώντας μεροληπτικούς αλγόριθμους για την επεξεργασία έγκυρων δεδομένων.  

Προκατειλημμένη είσοδος

Πολλοί από εμάς έχουμε την εντύπωση ότι η τεχνητή νοημοσύνη μπορεί να είναι αξιόπιστη για τη συμπίεση των αριθμών, την εφαρμογή των αλγορίθμων της και την αξιόπιστη ανάλυση των δεδομένων. Η Τεχνητή Νοημοσύνη μπορεί να είναι τόσο έξυπνη όσο είναι εκπαιδευμένη. Εάν τα δεδομένα στα οποία εκπαιδεύεται είναι ατελή, ούτε τα αποτελέσματα ή τα συμπεράσματα θα είναι αξιόπιστα. Παρόμοια με την παραπάνω περίπτωση της μεροληψίας έρευνας, υπάρχουν διάφοροι τρόποι με τους οποίους μπορούν να γίνουν τα δεδομένα μεροληπτική στη μηχανική μάθηση:.  

  • Μεροληψία δείγματος - το σύνολο δεδομένων εκπαίδευσης δεν είναι αντιπροσωπευτικό ολόκληρου του πληθυσμού.
  • Μεροληψία αποκλεισμού – μερικές φορές αυτά που φαίνονται ακραία είναι στην πραγματικότητα έγκυρα ή, όπου προσδιορίζουμε τι πρέπει να συμπεριλάβουμε (ταχυδρομικοί κώδικες, ημερομηνίες, κ.λπ.).
  • Μεροληψία μέτρησης – η σύμβαση είναι να μετράτε πάντα από το κέντρο και το κάτω μέρος του μηνίσκου, για παράδειγμα, κατά τη μέτρηση υγρών σε ογκομετρικές φιάλες ή δοκιμαστικούς σωλήνες (εκτός από τον υδράργυρο.)
  • Ανάκληση μεροληψίας – όταν η έρευνα εξαρτάται από τη μνήμη των συμμετεχόντων.
  • Προκατάληψη παρατηρητών – οι επιστήμονες, όπως όλοι οι άνθρωποι, είναι πιο διατεθειμένοι να δουν αυτό που περιμένουν να δουν.
  • Σεξιστική και ρατσιστική προκατάληψη – το φύλο ή η φυλή μπορεί να υπερεκπροσωπούνται ή να υποεκπροσωπούνται.  
  • Προκατάληψη συσχέτισης – τα δεδομένα ενισχύουν τα στερεότυπα

Για να επιστρέφει η τεχνητή νοημοσύνη αξιόπιστα αποτελέσματα, τα δεδομένα εκπαίδευσής της πρέπει να αντιπροσωπεύουν τον πραγματικό κόσμο. Όπως έχουμε συζητήσει σε προηγούμενο άρθρο ιστολογίου, η προετοιμασία των δεδομένων είναι κρίσιμης σημασίας και όπως κάθε άλλο έργο δεδομένων. Τα αναξιόπιστα δεδομένα μπορούν να διδάξουν στα συστήματα μηχανικής μάθησης το λάθος μάθημα και θα οδηγήσουν σε λάθος συμπέρασμα. Αυτό είπε, «Όλα τα δεδομένα είναι προκατειλημμένα. Αυτό δεν είναι παράνοια. Αυτό είναι γεγονός.” – Δρ Sanjiv M. Narayan, Ιατρική Σχολή του Πανεπιστημίου Στάνφορντ.

Η χρήση μεροληπτικών δεδομένων για εκπαίδευση έχει οδηγήσει σε μια σειρά από αξιοσημείωτες αποτυχίες τεχνητής νοημοσύνης. (Παραδείγματα εδώ και εδώ, έρευνα εδώ..)

Μεροληπτικοί αλγόριθμοι

Ένας αλγόριθμος είναι ένα σύνολο κανόνων που δέχονται μια είσοδο και δημιουργεί έξοδο για να απαντήσουν σε ένα επιχειρηματικό πρόβλημα. Είναι συχνά καλά καθορισμένα δέντρα αποφάσεων. Οι αλγόριθμοι είναι σαν μαύρα κουτιά. Κανείς δεν είναι σίγουρος πώς λειτουργούν, συχνά, ούτε καν το εταιρείες που τα χρησιμοποιούν. Α, και είναι συχνά ιδιόκτητα. Η μυστηριώδης και πολύπλοκη φύση τους είναι ένας από τους λόγους για τους οποίους οι μεροληπτικοί αλγόριθμοι είναι τόσο ύπουλοι. . 

Εξετάστε τους αλγόριθμους τεχνητής νοημοσύνης στην ιατρική, το ανθρώπινο δυναμικό ή τη χρηματοδότηση που λαμβάνει υπόψη τη φυλή. Εάν η φυλή είναι ένας παράγοντας, ο αλγόριθμος δεν μπορεί να είναι φυλετικά τυφλός. Αυτό δεν είναι θεωρητικό. Προβλήματα όπως αυτά έχουν ανακαλυφθεί στον πραγματικό κόσμο χρησιμοποιώντας την τεχνητή νοημοσύνη μίσθωση, βόλτα-μερίδιο, αίτηση για δάνειοs, και μεταμοσχεύσεις νεφρού

Η ουσία είναι ότι εάν τα δεδομένα ή οι αλγόριθμοί σας είναι κακοί, είναι χειρότερο από άχρηστοι, μπορεί να είναι επικίνδυνοι. Υπάρχει κάτι σαν "αλγοριθμικός έλεγχος.» Ο στόχος είναι να βοηθηθούν οι οργανισμοί να εντοπίσουν τους πιθανούς κινδύνους που σχετίζονται με τον αλγόριθμο, καθώς σχετίζεται με τη δικαιοσύνη, την προκατάληψη και τις διακρίσεις. Αλλού-κάπου αλλού, Facebook χρησιμοποιεί την τεχνητή νοημοσύνη για την καταπολέμηση της προκατάληψης στην τεχνητή νοημοσύνη.

Οι άνθρωποι είναι προκατειλημμένοι

Έχουμε ανθρώπους και στις δύο πλευρές της εξίσωσης. Οι άνθρωποι προετοιμάζουν την ανάλυση και οι άνθρωποι λαμβάνουν τις πληροφορίες. Υπάρχουν ερευνητές και υπάρχουν αναγνώστες. Σε οποιαδήποτε επικοινωνία, μπορεί να υπάρξουν προβλήματα στη μετάδοση ή λήψη.

Πάρτε για παράδειγμα τον καιρό. Τι σημαίνει «πιθανότητα βροχής»; Πρώτον, τι εννοούν οι μετεωρολόγοι όταν λένε ότι υπάρχει πιθανότητα βροχής; Σύμφωνα με την κυβέρνηση των ΗΠΑ Εθνική Μετεωρολογική Υπηρεσία, μια πιθανότητα βροχής, ή αυτό που αποκαλούν Πιθανότητα Κατακρήμνισης (PoP), είναι ένα από τα λιγότερο κατανοητά στοιχεία σε μια πρόγνωση καιρού. Έχει έναν τυπικό ορισμό: «Η πιθανότητα βροχόπτωσης είναι απλώς μια στατιστική πιθανότητα 0.01″ ίντσας [sic] από [sic] περισσότερης βροχόπτωσης σε μια δεδομένη περιοχή στη δεδομένη περιοχή πρόβλεψης στην καθορισμένη χρονική περίοδο». Η «δεδομένη περιοχή» είναι η περιοχή πρόβλεψης ή βroadπεριοχή χυτού. Αυτό σημαίνει ότι η επίσημη πιθανότητα βροχόπτωσης εξαρτάται από την εμπιστοσύνη ότι θα βρέξει κάπου στην περιοχή και το ποσοστό της περιοχής που θα βραχεί. Με άλλα λόγια, εάν ο μετεωρολόγος είναι βέβαιος ότι πρόκειται να βρέξει στην περιοχή πρόβλεψης (Εμπιστοσύνη = 100%), τότε το PoP αντιπροσωπεύει το τμήμα της περιοχής που θα δεχθεί βροχή.  

Paris Street; Βροχερή μέρα,Gustave Caillebotte (1848-1894) Public Domain του Chicago Art Institute

Η πιθανότητα βροχής εξαρτάται τόσο από την εμπιστοσύνη όσο και από την περιοχή. Δεν ήξερα ότι. Υποψιάζομαι ότι ούτε οι άλλοι το γνωρίζουν αυτό. Περίπου το 75% του πληθυσμού δεν κατανοεί με ακρίβεια πώς υπολογίζεται το PoP ή τι προορίζεται να αντιπροσωπεύει. Λοιπόν, μας κοροϊδεύουν, ή αυτό είναι πρόβλημα αντίληψης. Ας το ονομάσουμε αντίληψη βροχοπτώσεων. Μήπως κατηγορούμε τον μετεωρολόγο; Για να είμαστε δίκαιοι, υπάρχουν μερικά σύγχυση και μεταξύ των μετεωρολόγων. Σε μια επισκόπηση, το 43% των μετεωρολόγων που συμμετείχαν στην έρευνα είπε ότι υπάρχει πολύ μικρή συνέπεια στον ορισμό του PoP.

Η ίδια η ανάλυση είναι προκατειλημμένη

Από τους πέντε παράγοντες που επηρεάζουν, η ίδια η ανάλυση μπορεί να είναι ο πιο εκπληκτικός. Στην επιστημονική έρευνα που έχει ως αποτέλεσμα τη δημοσίευση μιας αναθεωρημένης εργασίας, συνήθως υποτίθεται μια θεωρία, ορίζονται μέθοδοι για τον έλεγχο της υπόθεσης, συλλέγονται δεδομένα και στη συνέχεια αναλύονται τα δεδομένα. Ο τύπος της ανάλυσης που γίνεται και ο τρόπος με τον οποίο γίνεται υποτιμάται ως προς το πώς επηρεάζει τα συμπεράσματα. Σε ένα χαρτί που δημοσιεύθηκε νωρίτερα αυτό το έτος (Ιανουάριος 2022), στο International Journal of Cancer, οι συγγραφείς αξιολόγησαν εάν τα αποτελέσματα τυχαιοποιημένων ελεγχόμενων δοκιμών και αναδρομικών μελετών παρατήρησης. Τα ευρήματά τους κατέληξαν στο συμπέρασμα ότι,

Μεταβάλλοντας τις αναλυτικές επιλογές στην έρευνα συγκριτικής αποτελεσματικότητας, δημιουργήσαμε αντίθετα αποτελέσματα. Τα αποτελέσματά μας υποδηλώνουν ότι ορισμένες αναδρομικές μελέτες παρατήρησης μπορεί να βρουν ότι μια θεραπεία βελτιώνει τα αποτελέσματα για τους ασθενείς, ενώ μια άλλη παρόμοια μελέτη μπορεί να διαπιστώσει ότι δεν το κάνει, απλώς με βάση αναλυτικές επιλογές.

Στο παρελθόν, όταν διαβάζατε ένα άρθρο επιστημονικού περιοδικού, αν είστε σαν εμένα, μπορεί να σκεφτόσασταν ότι τα αποτελέσματα ή τα συμπεράσματα αφορούν όλα τα δεδομένα. Τώρα, φαίνεται ότι τα αποτελέσματα ή εάν η αρχική υπόθεση επιβεβαιώνεται ή διαψεύδεται μπορεί επίσης να εξαρτάται από τη μέθοδο ανάλυσης.

Άλλος μελέτη βρήκε παρόμοια αποτελέσματα. Το άρθρο, Πολλοί αναλυτές, ένα σύνολο δεδομένων: Κάνοντας διαφάνεια πώς οι παραλλαγές στις αναλυτικές επιλογές επηρεάζουν τα αποτελέσματα, περιγράφει πώς έδωσαν το ίδιο σύνολο δεδομένων σε 29 διαφορετικές ομάδες για ανάλυση. Η ανάλυση δεδομένων συχνά θεωρείται ως μια αυστηρή, καλά καθορισμένη διαδικασία που οδηγεί σε ένα μόνο συμπέρασμα.  

Παρά τις διαμαρτυρίες των μεθοδολόγων, είναι εύκολο να παραβλεφθεί το γεγονός ότι τα αποτελέσματα μπορεί να εξαρτώνται από την επιλεγμένη αναλυτική στρατηγική, η οποία η ίδια είναι εμποτισμένη με θεωρία, υποθέσεις και σημεία επιλογής. Σε πολλές περιπτώσεις, υπάρχουν πολλές λογικές (και πολλές παράλογες) προσεγγίσεις για την αξιολόγηση των δεδομένων που σχετίζονται με ένα ερευνητικό ερώτημα.

Οι ερευνητές συνέλεξαν την ανάλυση των δεδομένων και κατέληξαν στο συμπέρασμα ότι όλη η έρευνα περιλαμβάνει υποκειμενικές αποφάσεις – συμπεριλαμβανομένου του τύπου ανάλυσης που θα χρησιμοποιήσουν – οι οποίες μπορούν να επηρεάσουν το τελικό αποτέλεσμα της μελέτης.

Η σύσταση ενός άλλου ερευνητής ο οποίος ανέλυσε την παραπάνω μελέτη πρέπει να είναι προσεκτικός όταν χρησιμοποιεί ένα μόνο έγγραφο στη λήψη αποφάσεων ή στην εξαγωγή συμπερασμάτων.

Αντιμετώπιση προκατάληψης στο Analytics

Αυτό προορίζεται απλώς να είναι μια προειδοποιητική ιστορία. Η γνώση μπορεί να μας προστατεύσει από τις απάτες. Όσο πιο ενήμεροι είναι οι πιθανές μέθοδοι που μπορεί να χρησιμοποιήσει ένας σαρωτής για να μας ξεγελάσει, τόσο λιγότερο πιθανό είναι να παρασυρθούμε, ας πούμε, από λάθος προσανατολισμό ενός πορτοφολέα ή από την ομαλή συζήτηση για ένα παιχνίδι Ponzi. Έτσι είναι με την κατανόηση και την αναγνώριση πιθανών προκαταλήψεων που επηρεάζουν τα αναλυτικά μας στοιχεία. Εάν γνωρίζουμε πιθανές επιρροές, ίσως μπορέσουμε να παρουσιάσουμε την ιστορία καλύτερα και τελικά να πάρουμε καλύτερες αποφάσεις.  

BI/AnalyticsUncategorized
Γιατί το Microsoft Excel είναι το #1 εργαλείο ανάλυσης
Γιατί το Excel είναι το #1 Εργαλείο Analytics;

Γιατί το Excel είναι το #1 Εργαλείο Analytics;

  Είναι φθηνό και εύκολο. Το λογισμικό υπολογιστικών φύλλων Microsoft Excel είναι πιθανώς ήδη εγκατεστημένο στον υπολογιστή του επαγγελματικού χρήστη. Και πολλοί χρήστες σήμερα έχουν εκτεθεί στο λογισμικό του Microsoft Office από το γυμνάσιο ή και νωρίτερα. Αυτή η σπασμωδική απάντηση ως προς...

Δείτε Περισσότερα

BI/AnalyticsUncategorized
Αποκαταστήστε τις πληροφορίες σας: Ένας οδηγός για τον ανοιξιάτικο καθαρισμό του Analytics

Αποκαταστήστε τις πληροφορίες σας: Ένας οδηγός για τον ανοιξιάτικο καθαρισμό του Analytics

Ξεφορτωθείτε τις γνώσεις σας Ένας οδηγός για τον ανοιξιάτικο καθαρισμό του Analytics Η νέα χρονιά ξεκινά με έντονο τρόπο. Οι εκθέσεις για το τέλος του έτους δημιουργούνται και εξετάζονται εξονυχιστικά, και στη συνέχεια όλοι εγκαθίστανται σε ένα σταθερό πρόγραμμα εργασίας. Καθώς οι μέρες μεγαλώνουν και τα δέντρα και τα λουλούδια ανθίζουν,...

Δείτε Περισσότερα

BI/AnalyticsUncategorized
NY Style εναντίον Chicago Style Pizza: A Delicious Debate

NY Style εναντίον Chicago Style Pizza: A Delicious Debate

Όταν ικανοποιούμε τις λιγούρες μας, λίγα πράγματα μπορούν να συναγωνιστούν τη χαρά μιας ζεστής φέτας πίτσας. Η συζήτηση μεταξύ της πίτσας σε στυλ Νέας Υόρκης και πίτσας τύπου Σικάγο έχει πυροδοτήσει παθιασμένες συζητήσεις για δεκαετίες. Κάθε στυλ έχει τα δικά του μοναδικά χαρακτηριστικά και τους αφοσιωμένους θαυμαστές του....

Δείτε Περισσότερα

BI/AnalyticsΑνάλυση Cognos
Cognos Query Studio
Οι χρήστες σας θέλουν το Query Studio τους

Οι χρήστες σας θέλουν το Query Studio τους

Με την κυκλοφορία του IBM Cognos Analytics 12, η ​​από καιρό ανακοινωθείσα κατάργηση του Query Studio και του Analysis Studio επιτέλους παραδόθηκε με μια έκδοση του Cognos Analytics μείον αυτά τα στούντιο. Αν και αυτό δεν πρέπει να αποτελεί έκπληξη για τους περισσότερους ανθρώπους που ασχολούνται με το...

Δείτε Περισσότερα

BI/AnalyticsUncategorized
Είναι πραγματικό το εφέ Taylor Swift;

Είναι πραγματικό το εφέ Taylor Swift;

Μερικοί κριτικοί προτείνουν ότι ανεβάζει τις τιμές των εισιτηρίων για το Super Bowl Αυτό το Σαββατοκύριακο αναμένεται να είναι ένα από τα 3 καλύτερα γεγονότα στην ιστορία της τηλεόρασης. Πιθανώς περισσότερα από τα νούμερα ρεκόρ του περασμένου έτους και ίσως ακόμη περισσότερα από το φεγγάρι του 1969...

Δείτε Περισσότερα

BI/Analytics
Κατάλογοι Analytics – Ένα ανερχόμενο αστέρι στο οικοσύστημα του Analytics

Κατάλογοι Analytics – Ένα ανερχόμενο αστέρι στο οικοσύστημα του Analytics

Εισαγωγή Ως Chief Technology Officer (CTO), είμαι πάντα σε επιφυλακή για αναδυόμενες τεχνολογίες που αλλάζουν τον τρόπο με τον οποίο προσεγγίζουμε τα analytics. Μια τέτοια τεχνολογία που τράβηξε την προσοχή μου τα τελευταία χρόνια και υπόσχεται πολλά είναι το Analytics...

Δείτε Περισσότερα