Kłamstwo analityczne

by Sierpnia 31, 2022BI/Analityka0 komentarze

Kłamstwo analityczne

Stronniczość analizy

 

Mark Twain dyskusyjnie powiedział coś w stylu: „Istnieją trzy rodzaje kłamstw: kłamstwa, cholerne kłamstwa i… analityka". 

Przyjmujemy za pewnik, że analityka dostarcza nam użytecznych, praktycznych spostrzeżeń. Często nie zdajemy sobie sprawy, w jaki sposób nasze własne uprzedzenia i uprzedzenia innych wpływają na odpowiedzi, które otrzymujemy nawet w najbardziej wyrafinowanym oprogramowaniu i systemach. Czasami możemy być nieuczciwie manipulowani, ale częściej mogą to być subtelne i nieświadome uprzedzenia, które wkradają się do naszych analiz. Motywacja stronnicza analityka jest wielorakie. Czasami na bezstronne wyniki, jakich oczekujemy od nauki, mają wpływ: 1) subtelne wybory dotyczące sposobu prezentacji danych, 2) niespójne lub niereprezentatywne dane, 3) sposób szkolenia systemów sztucznej inteligencji, 4) ignorancja, niekompetencja badaczy lub innych próbujących opowiedzieć historię, 5) samą analizę.    

Prezentacja jest stronnicza

Niektóre kłamstwa są łatwiejsze do wykrycia niż inne. Kiedy wiesz, czego szukać, możesz łatwiej wykryć potencjalnie wprowadzające w błąd wykresy i wykresy. 

Istnieją co najmniej pięć sposobów na mylące wyświetlanie danych: 1) Pokaż ograniczony zestaw danych, 2). Pokaż niepowiązane korelacje, 3) Pokaż dane niedokładnie, 4) Pokaż dane niekonwencjonalnie lub 5). Pokaż dane nadmiernie uproszczone.

Pokaż ograniczony zestaw danych

Ograniczanie danych lub ręczne wybieranie nielosowej sekcji danych często może opowiedzieć historię, która nie jest spójna z całością. Złe próbkowanie lub wyłapywanie wiśni ma miejsce wtedy, gdy analityk używa niereprezentatywnej próbki do reprezentowania większej grupy. 

W marcu 2020, Departament Zdrowia Publicznego Gruzji opublikował ten wykres jako część swojego dziennego raportu o stanie. W rzeczywistości rodzi więcej pytań niż odpowiedzi.  

Jedną z rzeczy, których brakuje, jest kontekst. Na przykład pomocne byłoby wiedzieć, jaki jest procent populacji dla każdej grupy wiekowej. Inną kwestią związaną z prosto wyglądającym wykresem kołowym są nierówne grupy wiekowe. 0-17 ma 18 lat, 18-59 ma 42 lata, 60+ jest otwarte, ale ma około 40 lat. Wniosek, biorąc pod uwagę tylko ten wykres, jest taki, że większość przypadków dotyczy grupy wiekowej 18-59 lat. Wygląda na to, że osoby w wieku powyżej 60 lat są mniej dotknięte przypadkami COVID. Ale to nie wszystko.

Dla porównania, ten inny zestaw danych na Strona internetowa CDC wykresy przypadków COVID według grup wiekowych z dodatkowymi danymi na temat odsetka populacji USA w każdym przedziale wiekowym.  

To jest lepsze. Mamy więcej kontekstu. Widzimy, że wszystkie grupy wiekowe 18-29, 30-39, 40-49 mają wyższy procent przypadków niż procent grupy wiekowej w populacji. Wciąż istnieją nierówne grupy wiekowe. Dlaczego 16-17 lat jest oddzielną grupą wiekową? Wciąż to nie jest cała historia, ale eksperci pisali kolumny, przewidywali i nakazali mniej niż to. Oczywiście w przypadku COVID istnieje wiele zmiennych oprócz wieku, które wpływają na uznanie za przypadek pozytywny: stan szczepienia, dostępność testów, liczba testów, choroby współistniejące i wiele innych. Sama liczba przypadków daje niepełny obraz. Większość ekspertów analizuje również liczbę zgonów lub odsetek zgonów na 100,000 XNUMX ludności lub przypadki śmiertelne, aby przyjrzeć się, jak COVID wpływa na każdą grupę wiekową.

Pokaż niepowiązane korelacje

Oczywiście istnieje silna korelacja między amerykańskimi wydatkami na naukę, przestrzeń kosmiczną i technologię a liczbą samobójstw przez powieszenie, uduszenie i uduszenie. Korelacja wynosi 99.79%, prawie idealne dopasowanie.  

Kto by jednak twierdził, że są one w jakiś sposób powiązane, albo że jedno powoduje drugie? Istnieją inne, mniej ekstremalne przykłady, ale nie mniej fałszywe. Istnieje podobna silna korelacja między listami w Winning Word of Scripps National Spelling Bee a liczbą osób zabitych przez jadowite pająki. Zbieg okoliczności? Ty decydujesz.

Innym sposobem na wykresie tych danych, który może być mniej mylący, jest uwzględnienie zera na obu osiach Y.

Pokaż dane niedokładnie

Cena Od Jak źle wyświetlać dane?, stan Georgia w USA przedstawił 5 hrabstw o ​​największej liczbie potwierdzonych przypadków COVID-19.

Wygląda legalnie, prawda? Istnieje wyraźna tendencja spadkowa potwierdzonych przypadków COVID-19. Czy potrafisz odczytać oś X? Oś X reprezentuje czas. Zazwyczaj daty rosną od lewej do prawej. Tutaj widzimy małą podróż w czasie na osi X: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

Czekać? Co? Oś X nie jest posortowana chronologicznie. Tak więc, jak ładnie może wyglądać ten trend, nie możemy wyciągać żadnych wniosków. Jeśli daty są uporządkowane, słupki liczby przypadków pokazują bardziej wzór piłokształtny niż jakikolwiek trend.

Prostym rozwiązaniem jest posortowanie dat tak, jak robi to kalendarz.

Pokaż dane niekonwencjonalnie

Wszyscy jesteśmy zajęci. Nasze mózgi nauczyły nas dokonywania szybkich osądów w oparciu o założenia, które są spójne w naszym świecie. Na przykład, każdy wykres, jaki kiedykolwiek widziałem, pokazuje osie x i y spotykające się przy zerowych lub najniższych wartościach. Patrząc pokrótce na ten wykres, jakie wnioski można wyciągnąć na temat efektu Florydy? „Podtrzymaj swoje podstawowe prawo.”? Wstyd się przyznać, ale ten wykres na początku mnie zmylił. Twoje oko jest wygodnie przyciągane do tekstu i strzałki pośrodku grafiki. Na tym wykresie dół jest w górę. To może nie być kłamstwo – dane są tam w porządku. Ale muszę myśleć, że to ma oszukiwać. Jeśli jeszcze go nie widziałeś, zero na osi y znajduje się na górze. Zatem wraz ze spadkiem trendów danych oznacza to więcej zgonów. Ten wykres pokazuje, że liczba morderstw z użyciem broni palnej wzrosła po 2005 roku, na co wskazuje tendencja pójścia na dół.

Pokaż dane nadmiernie uproszczone

Jednym z przykładów nadmiernego uproszczenia danych jest wykorzystanie przez analityków paradoksu Simpsona. Jest to zjawisko, które występuje, gdy zagregowane dane wydają się wykazywać inne wnioski niż wtedy, gdy są rozdzielone na podzbiory. W tę pułapkę łatwo wpaść, patrząc na zagregowane wartości procentowe na wysokim poziomie. Jedna z najwyraźniejszych ilustracji Paradoksu Simpsona w pracy jest związana z: średnie mrugnięcia.  

Tutaj widzimy, że Derek Jeter ma wyższą ogólną średnią mrugnięcia niż David Justice w sezonach 1995 i 1996. Paradoks pojawia się, gdy zdamy sobie sprawę, że Justice pokonał Jetera w średniej mrugnięcia z obu tych lat. Jeśli przyjrzysz się uważnie, ma to sens, gdy zdasz sobie sprawę, że Jeter miał około 4 razy więcej nietoperzy (mianownik) w 1996 r. przy średniej o 007 niższej w 1996 r. Podczas gdy Justice miał około 10 razy więcej nietoperzy przy zaledwie . 003 wyższa średnia w 1995 roku.

Prezentacja wydaje się prosta, ale Paradoks Simpsona, świadomie lub nieświadomie, doprowadził do błędnych wniosków. Ostatnio w wiadomościach i mediach społecznościowych pojawiły się przykłady paradoksu Simpsona dotyczące szczepionek i śmiertelności związanej z COVID. Jeden chart przedstawia wykres liniowy porównujący śmiertelność osób zaszczepionych i nieszczepionych dla osób w wieku 10–59 lat. Wykres pokazuje, że osoby nieszczepione konsekwentnie mają niższą śmiertelność. Co tu się dzieje?  

Problem jest podobny do tego, który widzimy w przypadku średnich mrugnięć. Mianownikiem w tym przypadku jest liczba osobników w każdej grupie wiekowej. Wykres łączy grupy, które mają różne wyniki. Jeśli spojrzymy osobno na starszą grupę wiekową 50-59 lat, zobaczymy, że lepiej radzą sobie osoby zaszczepione. Podobnie, jeśli spojrzymy na 10-49 lat, zobaczymy, że zaszczepieni radzą sobie lepiej. Paradoksalnie, patrząc na zestaw łączony, nieszczepione wydają się mieć gorszy wynik. W ten sposób, korzystając z danych, jesteś w stanie uzasadnić przeciwstawne argumenty.

Dane są stronnicze

Danym nie zawsze można ufać. Nawet w środowisku naukowym ponad jedna trzecia ankietowanych badaczy przyznała się do: „wątpliwe praktyki badawcze”.  Inne detektyw ds. oszustw badawczych mówi: „Prawdopodobnie jest znacznie więcej oszustw w danych – tabelach, wykresach liniowych, danych sekwencjonowania [– niż faktycznie odkrywamy]. Każdy, kto siedzi przy swoim kuchennym stole, może umieścić kilka liczb w arkuszu kalkulacyjnym i zrobić wykres liniowy, który wygląda przekonująco”.

To pierwsze przykład wygląda na to, że ktoś właśnie to zrobił. Nie mówię, że to oszustwo, ale jako ankieta po prostu nie generuje żadnych danych, które przyczyniają się do świadomej decyzji. Wygląda na to, że w ankiecie zapytano respondentów o ich opinię o kawie na stacji benzynowej lub innym istotnym aktualnym wydarzeniu. 

  1. Wspaniały 
  2. Wielki
  3. Bardzo dobry 

Przyciąłem post na Twitterze, aby usunąć odniesienia do sprawcy, ale to jest cały wykres ostatecznych wyników ankiety. Takie ankiety nie są rzadkością. Oczywiście każdy wykres utworzony na podstawie danych wynikających z odpowiedzi pokaże, że nie można przegapić danej kawy.  

Problem polega na tym, że gdybyś otrzymał tę ankietę i nie znalazł odpowiedzi, która pasowałaby do Twojego sposobu myślenia, pominęłabyś ankietę. Może to być skrajny przykład tego, jak można tworzyć niewiarygodne dane. Zły projekt ankiety może jednak prowadzić do mniejszej liczby odpowiedzi, a ci, którzy odpowiadają, mają tylko jedną opinię, to tylko kwestia stopnia. Dane są stronnicze.

Ten drugi przykład stronniczości danych pochodzi z plików „Najgorszy COVID 19 Wprowadzające w błąd wykresy". 

Znowu jest to subtelne i nie do końca oczywiste. Wykres słupkowy pokazuje płynny – prawie zbyt płynny – spadek odsetka pozytywnych przypadków COVID-19 w czasie dla hrabstwa na Florydzie. Można łatwo wyciągnąć wniosek, że liczba spraw spada. Świetnie, wizualizacja dokładnie przedstawia dane. Problem tkwi w danych. Więc jest to bardziej podstępne nastawienie, ponieważ nie możesz tego zobaczyć. Jest zapieczętowany w danych. Pytania, które musisz zadać, obejmują, kto jest testowany? Innymi słowy, jaki jest mianownik lub populacja, której procent dotyczy. Zakłada się, że jest to cała populacja lub przynajmniej reprezentatywna próba.

Jednak w tym okresie w tym hrabstwie testy przeprowadzono tylko dla ograniczonej liczby osób. Musieli mieć objawy podobne do COVID lub niedawno podróżowali do kraju z listy gorących punktów. Dodatkowo mylący wyniki jest fakt, że liczono każdy pozytywny test i każdy negatywny test. Zazwyczaj, gdy dana osoba uzyskała wynik pozytywny, testowałaby ponownie, gdy wirus zakończył swój bieg, i dawała wynik negatywny. Tak więc, w pewnym sensie, dla każdego pozytywnego przypadku istnieje negatywny przypadek testowy, który go anuluje. Zdecydowana większość testów jest negatywna i policzono negatywne testy każdej osoby. Możesz zobaczyć, jak dane są tendencyjne i niezbyt przydatne do podejmowania decyzji. 

Wprowadzanie i szkolenie AI jest stronnicze

Istnieją co najmniej dwa sposoby, w jakie sztuczna inteligencja może prowadzić do stronniczych wyników: zaczynając od stronniczych danych lub używając stronniczych algorytmów do przetwarzania prawidłowych danych.  

Wejście stronnicze

Wielu z nas ma wrażenie, że można zaufać sztucznej inteligencji, która zmiażdży liczby, zastosuje swoje algorytmy i wypluwa rzetelną analizę danych. Sztuczna inteligencja może być tylko tak inteligentna, jak jest wyszkolona. Jeśli dane, na których jest szkolony, są niedoskonałe, wynikom lub wnioskom również nie będzie można ufać. Podobnie jak w powyższym przypadku błędu ankiety, istnieje wiele sposobów, w jakie dane mogą być: stronniczy w uczeniu maszynowym:.  

  • Błąd próby – treningowy zbiór danych nie jest reprezentatywny dla całej populacji.
  • Błąd wykluczenia – czasami to, co wydaje się być wartościami odstającymi, jest w rzeczywistości prawidłowe lub tam, gdzie wyznaczamy granicę tego, co należy uwzględnić (kody pocztowe, daty itp.).
  • Błąd pomiaru – konwencją jest zawsze pomiar od środka i dołu menisku, na przykład podczas pomiaru cieczy w kolbach miarowych lub probówkach (z wyjątkiem rtęci).
  • Przypomnij sobie stronniczość – gdy badanie zależy od pamięci uczestników.
  • Stronniczość obserwatora – naukowcy, podobnie jak wszyscy ludzie, są bardziej skłonni zobaczyć to, czego oczekują.
  • Uprzedzenia seksistowskie i rasistowskie – płeć lub rasa mogą być nadreprezentowane lub niedostatecznie reprezentowane.  
  • Stronniczość stowarzyszenia – dane wzmacniają stereotypy

Aby sztuczna inteligencja mogła zwracać wiarygodne wyniki, jej dane treningowe muszą reprezentować rzeczywisty świat. Jak omówiliśmy w poprzednim artykule na blogu, przygotowanie danych ma kluczowe znaczenie i jak każdy inny projekt danych. Niewiarygodne dane mogą uczyć systemy uczenia maszynowego niewłaściwej lekcji i prowadzić do błędnych wniosków. To powiedziawszy: „Wszystkie dane są stronnicze. To nie jest paranoja. To fakt." – Dr Sanjiv M. Narayan, Szkoła Medyczna Uniwersytetu Stanforda.

Wykorzystanie tendencyjnych danych do szkolenia doprowadziło do wielu znaczących niepowodzeń AI. (Przykłady tutaj i tutaj, Badania tutaj..)

Stronnicze algorytmy

Algorytm to zestaw reguł, które akceptują dane wejściowe i tworzą dane wyjściowe w odpowiedzi na problem biznesowy. Często są to dobrze zdefiniowane drzewa decyzyjne. Algorytmy przypominają czarne skrzynki. Często nikt nie jest pewien, jak one działają, nawet firmy, które z nich korzystają. Aha, i często są zastrzeżone. Ich tajemnicza i złożona natura jest jednym z powodów, dla których stronnicze algorytmy są tak podstępne. . 

Rozważ algorytmy AI w medycynie, HR czy finansach, które uwzględniają wyścig. Jeśli rasa jest czynnikiem, algorytm nie może być rasowo ślepy. To nie jest teoretyczne. Takie problemy zostały odkryte w prawdziwym świecie za pomocą sztucznej inteligencji w wynajmowanie, Wspólne przejazdy, podanie o pożyczkęs, i przeszczepy nerki

Najważniejsze jest to, że jeśli twoje dane lub algorytmy są złe, gorsze niż bezużyteczne, mogą być niebezpieczne. Istnieje coś takiego jak „audyt algorytmiczny”. Celem jest pomoc organizacjom w identyfikacji potencjalnego ryzyka związanego z algorytmem w odniesieniu do sprawiedliwości, stronniczości i dyskryminacji. Gdzie indziej, Facebook wykorzystuje sztuczną inteligencję do zwalczania uprzedzeń w sztucznej inteligencji.

Ludzie są stronniczy

Mamy ludzi po obu stronach równania. Ludzie przygotowują analizę i ludzie otrzymują informacje. Są badacze i są czytelnicy. W każdej komunikacji mogą wystąpić problemy z transmisją lub odbiorem.

Weźmy na przykład pogodę. Co oznacza „szansa na deszcz”? Po pierwsze, co mają na myśli meteorolodzy, gdy mówią, że istnieje szansa na deszcz? Według rządu USA Krajowa Służba pogody, szansa na deszcz lub to, co nazywają prawdopodobieństwem opadów (PoP), jest jednym z najmniej poznanych elementów prognozy pogody. Ma standardową definicję: „Prawdopodobieństwo opadów jest po prostu statystycznym prawdopodobieństwem 0.01 cala [sic] [sic] więcej opadów na danym obszarze w danym obszarze prognozy w określonym okresie czasu”. „Dany obszar” to obszar prognozy lub broadpowierzchnia odlewu. Oznacza to, że oficjalne prawdopodobieństwo opadów zależy od pewności, że gdzieś w okolicy będzie padać oraz procentu powierzchni, która będzie mokra. Innymi słowy, jeśli meteorolog jest przekonany, że będzie padał deszcz na przewidywanym obszarze (zaufanie = 100%), wtedy PoP reprezentuje część obszaru, na który spadnie deszcz.  

Ulica Paryska; Deszczowy dzień,Gustave Caillebotte (1848-1894) Instytut Sztuki w Chicago, domena publiczna

Szansa na deszcz zależy zarówno od pewności siebie, jak i obszaru. Nie wiedziałem tego. Podejrzewam, że inni też o tym nie wiedzą. Około 75% populacji nie rozumie dokładnie, w jaki sposób obliczany jest PoP lub co ma on przedstawiać. Czy więc jesteśmy oszukiwani, czy jest to problem percepcji. Nazwijmy to postrzeganiem opadów. Czy winimy prognozę pogody? Aby być uczciwym, jest kilka zamieszanie także wśród prognostów pogody. W jednym badanie43% ankietowanych meteorologów stwierdziło, że definicja PoP jest bardzo mało spójna.

Sama analiza jest stronnicza

Spośród pięciu czynników wpływających sama analiza może być najbardziej zaskakująca. W badaniach naukowych, które skutkują opublikowaniem recenzowanego artykułu, zazwyczaj stawia się hipotezę, definiuje się metody testowania hipotezy, zbiera się dane, a następnie dane są analizowane. Rodzaj przeprowadzanej analizy i sposób jej przeprowadzenia jest niedoceniany pod względem tego, jak wpływa na wnioski. W papier opublikowane na początku tego roku (styczeń 2022), w International Journal of Cancer, autorzy ocenili, czy wyniki randomizowanych badań kontrolowanych i retrospektywnych badań obserwacyjnych. Ich ustalenia wykazały, że

Różnicując wybory analityczne w badaniach porównawczych skuteczności, uzyskaliśmy przeciwne wyniki. Nasze wyniki sugerują, że niektóre retrospektywne badania obserwacyjne mogą stwierdzić, że leczenie poprawia wyniki u pacjentów, podczas gdy inne podobne badanie może stwierdzić, że tak nie jest, po prostu na podstawie wyborów analitycznych.

W przeszłości, czytając artykuł w czasopiśmie naukowym, jeśli jesteś podobny do mnie, mogłeś pomyśleć, że wyniki lub wnioski dotyczą wyłącznie danych. Okazuje się, że wyniki lub to, czy wyjściowa hipoteza zostanie potwierdzona, czy odrzucona, może również zależeć od metody analizy.

Inne „The Puzzle of Monogamous Marriage” znaleziono podobne wyniki. Artykuł, Wielu analityków, jeden zestaw danych: przejrzyste, jak zmiany w wyborach analitycznych wpływają na wyniki, opisuje, w jaki sposób przekazali ten sam zestaw danych 29 różnym zespołom do analizy. Analiza danych jest często postrzegana jako ścisły, dobrze zdefiniowany proces, który prowadzi do jednego wniosku.  

Pomimo protestów metodologów, łatwo przeoczyć fakt, że wyniki mogą zależeć od wybranej strategii analitycznej, która sama w sobie jest przesiąknięta teorią, założeniami i punktami wyboru. W wielu przypadkach istnieje wiele rozsądnych (i wiele nieuzasadnionych) podejść do oceny danych, które mają związek z pytaniem badawczym.

Naukowcy pozyskali analizę danych i doszli do wniosku, że wszystkie badania obejmują subiektywne decyzje – w tym rodzaj analizy, który należy zastosować – które mogą wpłynąć na ostateczny wynik badania.

Rekomendacja innego badacz Kto analizował powyższe badanie, ma zachować ostrożność przy podejmowaniu decyzji lub wyciąganiu wniosków przy wykorzystaniu pojedynczego artykułu.

Adresowanie uprzedzeń w Analytics

To po prostu ma być przestrogą. Wiedza może uchronić nas przed oszustwami. Im bardziej świadomy może być skaner, który może nas oszukać, tym mniej prawdopodobne jest, że zostaniemy wciągnięci, powiedzmy, w błąd kieszonkowca lub gładką rozmowę o grze Ponziego. Tak samo jest ze zrozumieniem i rozpoznaniem potencjalnych uprzedzeń, które wpływają na naszą analitykę. Jeśli jesteśmy świadomi potencjalnych wpływów, możemy być w stanie lepiej przedstawić historię i ostatecznie podjąć lepsze decyzje.  

BI/AnalitykaBez kategorii
Dlaczego Microsoft Excel to narzędzie analityczne nr 1
Dlaczego Excel jest narzędziem analitycznym nr 1?

Dlaczego Excel jest narzędziem analitycznym nr 1?

  To tanie i łatwe. Oprogramowanie arkusza kalkulacyjnego Microsoft Excel jest prawdopodobnie już zainstalowane na komputerze użytkownika biznesowego. Wielu współczesnych użytkowników miało kontakt z oprogramowaniem Microsoft Office od czasów szkoły średniej, a nawet wcześniej. Ta odruchowa reakcja na...

Czytaj więcej

BI/AnalitykaBez kategorii
Uporządkuj swoje spostrzeżenia: przewodnik po wiosennych porządkach analitycznych

Uporządkuj swoje spostrzeżenia: przewodnik po wiosennych porządkach analitycznych

Uporządkuj swoje spostrzeżenia Przewodnik po analityce Wiosenne porządki Nowy rok zaczyna się z hukiem; tworzone i analizowane są raporty na koniec roku, a następnie wszyscy ustalają spójny harmonogram pracy. Gdy dni stają się coraz dłuższe, a drzewa i kwiaty kwitną,...

Czytaj więcej

BI/Analityka
Katalogi Analytics — wschodząca gwiazda w ekosystemie Analytics

Katalogi Analytics — wschodząca gwiazda w ekosystemie Analytics

Wprowadzenie Jako dyrektor ds. technologii (CTO) zawsze poszukuję nowych technologii, które zmieniają sposób, w jaki podchodzimy do analityki. Jedną z takich technologii, która przykuła moją uwagę w ciągu ostatnich kilku lat i jest niezwykle obiecująca, jest technologia Analytics...

Czytaj więcej