Аналитика Лага

by Август 31, 2022БИ/Аналитика0 коментари

Аналитика Лага

Пристрасноста на анализата

 

Марк Твен дебатно рече нешто како: „Постојат три вида лаги: лаги, проклети лаги и анализатор". 

Сметаме здраво за готово дека аналитиката ни дава корисни, функционални увиди. Она што често не го сфаќаме е како нашите сопствени предрасуди и оние на другите влијаат на одговорите што ни ги даваат дури и најсофистицираните софтвери и системи. Понекогаш, може да бидеме нечесно изманипулирани, но, почесто, може да се суптилни и несвесни предрасуди кои се вовлекуваат во нашата аналитика. Мотивацијата зад пристрасна аналитика е многукратна. Понекогаш непристрасните резултати што ги очекуваме од науката се под влијание на 1) суптилни избори за тоа како се презентираат податоците, 2) неконзистентни или нерепрезентативни податоци, 3) како се обучуваат системите за вештачка интелигенција, 4) незнаењето, неспособноста на истражувачите или другите кои се обидуваат да ја раскаже приказната, 5) самата анализа.    

Презентацијата е пристрасна

Некои од лагите полесно се забележуваат од другите. Кога знаете што да барате, може полесно да откриете потенцијално погрешни графикони и графикони. 

Има барем пет начини за погрешно прикажување податоци: 1) Прикажи ограничен сет на податоци, 2). Прикажи неповрзани корелации, 3) Прикажи ги податоците неточно, 4) Прикажи податоци неконвенционално или 5). Прикажи ги податоците премногу поедноставени.

Прикажи ограничен сет на податоци

Ограничувањето на податоците или рачното избирање на неслучаен дел од податоците често може да раскаже приказна што не е во согласност со големата слика. Лошо земање примероци, или берење цреша, е кога аналитичарот користи нерепрезентативен примерок за да претставува поголема група. 

Во март 2020, Одделот за јавно здравје на Грузија го објави овој графикон како дел од својот дневен извештај за статусот. Тоа всушност покренува повеќе прашања отколку што одговара.  

Една од работите што недостасува е контекстот. На пример, би било корисно да се знае колкав е процентот на населението за секоја возрасна група. Друг проблем со едноставната табела со пити се нееднаквите возрасни групи. 0-17 има 18 години, 18-59 има 42, 60+ е отворено, но има околу 40 години. Заклучокот, само со оглед на оваа табела, е дека најголемиот дел од случаите се во возрасната група од 18 до 59 години. Возрасната група над 60 години се чини дека е помалку погодена од случаите на СОВИД. Но, ова не е целата приказна.

За споредба, овој различен сет на податоци на Веб-страница на ЦДЦ ги прикажува случаите на КОВИД по возрасна група со дополнителни податоци за процентот на населението во САД што е во секоја возрасна група.  

Ова е подобро. Имаме повеќе контекст. Можеме да видиме дека возрасните групи 18-29, 30-39, 40-49 имаат повисок процент на случаи од процентот на возрасната група во популацијата. Сè уште има некои нееднакви возрасни групи. Зошто 16-17 години е посебна возрасна група? Сепак, ова не е целата приказна, но експертите пишуваа колумни, даваа предвидувања и мандати за помалку од ова. Очигледно, со СОВИД, има многу варијабли покрај возраста кои влијаат да се смета за позитивен случај: статус на вакцинација, достапност на тестови, број на пати тестирани, коморбидитети и многу други. Самиот број на случаи дава нецелосна слика. Повеќето експерти, исто така, го разгледуваат бројот на смртни случаи или процентите на смртни случаи на 100,000 жители или случаите на смртни случаи за да видат како СОВИД влијае на секоја возрасна група.

Прикажи неповрзани корелации

Очигледно, постои а силна корелација помеѓу трошоците на САД за наука, вселена и технологија и бројот на самоубиства со бесење, задушување и гушење. Корелацијата е 99.79%, речиси совршено се совпаѓа.  

Но, кој би рекол дека тие се некако поврзани или едното предизвикува друго? Има и други помалку екстремни примери, но не помалку лажни. Постои слична силна корелација помеѓу Буквите во победничкиот збор на Скрипс национален правопис и бројот на луѓе убиени од отровни пајаци. Случајност? Ти одлучи.

Друг начин да се прикажат овие податоци што може да бидат помалку погрешни би било да се вклучи нула на двете Y-оски.

Покажи ги податоците неточно

Од Како лошо да се прикажат податоците, американската држава Џорџија ги претстави Топ 5 окрузи со најголем број потврдени случаи на СОВИД-19.

Изгледа легално, нели? Очигледно има тренд на намалување на потврдени случаи на СОВИД-19. Можете ли да ја прочитате оската Х? X-оската го претставува времето. Вообичаено, датумите ќе се зголемуваат од лево кон десно. Еве, гледаме мало патување низ времето на X-оската: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

Чекај? Што? X-оската не е хронолошки подредена. Значи, колку и да изгледа убаво овој тренд, не можеме да извлечеме никакви заклучоци. Ако датумите се нарачани, шипките за бројот на случаи покажуваат повеќе шема на пила отколку каков било вид тренд.

Лесното решение овде е да ги сортирате датумите на начинот на кој тоа го прави календарот.

Прикажувај податоци неконвенционално

Сите сме зафатени. Нашиот мозок не научи да донесуваме брзи проценки врз основа на претпоставки кои биле конзистентни во нашиот свет. На пример, секој график што некогаш сум го видел ги прикажува оските x- и y- кои се среќаваат на нула, или најниски вредности. Гледајќи ја оваа табела накратко, какви заклучоци можете да извлечете за ефектот на Флорида „Задржете го вашиот темелен закон.“? Се срамам да признаам, но овој график на почетокот ме измами. Вашето око е погодно привлечено кон текстот и стрелката во средината на графиката. Долу е горе во овој графикон. Можеби не е лага - податоците се во ред таму. Но, морам да мислам дека тоа е наменето да измами. Ако сè уште не сте го виделе, нулата на y-оската е на врвот. Значи, како што се намалуваат трендовите на податоците, тоа значи повеќе смртни случаи. Овој графикон покажува дека бројот на убиства со употреба на огнено оружје зголемена по 2005 година, назначена со тоа, трендот на продолжување надолу.

Прикажи ги податоците премногу поедноставени

Еден пример за прекумерно поедноставување на податоците може да се види кога аналитичарите го користат Симпсоновиот парадокс. Ова е феномен што се јавува кога збирните податоци се чини дека покажуваат поинаков заклучок отколку кога се поделени во подмножества. Во оваа замка лесно може да се падне кога се гледаат збирните проценти на високо ниво. Една од најјасните илустрации на Симпсоновиот парадокс на работа е поврзана со вата просеци.  

Овде гледаме дека Дерек Џетер има повисок вкупен просек на вата од Дејвид Џастис за сезоните 1995 и 1996 година. Парадоксот доаѓа кога ќе сфатиме дека Џастис го победи Џетер во просечниот удар и двете тие години. Ако погледнете внимателно, има смисла кога ќе сфатите дека Џетер имал приближно 4 пати повеќе лилјаци (именителот) во 1996 година на 007 помал просек во 1996 година. 10 повисок просек во 003 г.

Презентацијата изгледа јасна, но Симпсоновиот парадокс, свесно или несвесно, доведе до неточни заклучоци. Неодамна, имаше примери на Симпсоновиот парадокс во вестите и на социјалните мрежи поврзани со вакцините и смртноста од СОВИД. Еден шема покажува линиски график кој ги споредува стапките на смртност помеѓу вакцинирани и невакцинирани за лица на возраст од 10-59 години. Графиконот покажува дека невакцинираните постојано имаат помала стапка на смртност. Што се случува овде?  

Прашањето е слично на она што го гледаме со просеците на вата. Именителот во овој случај е бројот на поединци во секоја возрасна група. Графикот комбинира групи кои имаат различни исходи. Ако ја погледнеме повозрасната група од 50-59 години посебно, ќе се види дека вакцинираните поминуваат подобро. Исто така, ако погледнеме на 10-49, ќе видиме дека вакцинираните поминуваат подобро. Парадоксално, кога се гледа комбинираниот сет, невакцинираните се чини дека имаат полош исход. На овој начин, можете да направите случај за спротивни аргументи користејќи ги податоците.

Податоците се пристрасни

Не може секогаш да им се верува на податоците. Дури и во научната заедница, повеќе од една третина од анкетираните истражувачи признале „Сомнителни истражувачки практики“.  Друга детектив за истражувачка измама вели: „Многу е веројатно дека има многу повеќе измами во податоците - табели, линиски графикони, податоци за секвенционирање [- отколку што всушност откриваме]. Секој што седи на нивната кујнска маса може да стави неколку бројки во табела и да направи линиски график што изгледа убедливо“.

Ова прво пример изгледа дека некој го направил токму тоа. Не велам дека ова е измама, но како анкета, едноставно не генерира никакви податоци што придонесуваат за информирана одлука. Изгледа дека анкетата ги прашала испитаниците за нивното мислење за кафето на бензинската пумпа или некој друг релевантен актуелен настан. 

  1. врвен 
  2. Велики
  3. Многу добар 

Ја отсеков објавата на Твитер за да ги отстранам референците за виновникот, но ова е вистинскиот целосен графикон на конечните резултати од истражувањето. Ваквите истражувања не се невообичаени. Очигледно, секоја табела создадена од податоците што произлегуваат од одговорите ќе покаже дека кафето за кое станува збор не треба да се пропушти.  

Проблемот е што ако ви беше дадена оваа анкета и не најдовте одговор што одговара на вашето размислување, ќе ја прескокнете анкетата. Ова може да биде екстремен пример за тоа како може да се создадат недоверливи податоци. Лошиот дизајн на анкетата, сепак, може да доведе до помалку одговори и оние кои одговараат имаат само едно мислење, тоа е само прашање на степен. Податоците се пристрасни.

Овој втор пример за пристрасност на податоците е од датотеките на „Најлоши погрешни графикони за COVID 19". 

Повторно, ова е суптилно и не е целосно очигледно. Графиконот со столбови покажува непречено - речиси премногу мазно - пад на процентот на позитивни случаи на СОВИД-19 со текот на времето за округот во Флорида. Можете лесно да заклучите дека случаите се намалуваат. Тоа е одлично, визуелизацијата точно ги претставува податоците. Проблемот е во податоците. Значи, тоа е поподмолна пристрасност затоа што не можете да ја видите. Се впива во податоците. Прашањата што треба да ги поставите, вклучуваат, кој се тестира? Со други зборови, кој е именителот, или популацијата на која гледаме процент. Претпоставката е дека тоа е целата популација, или барем, репрезентативен примерок.

Меѓутоа, во овој период, во оваа област, тестовите беа направени само на ограничен број луѓе. Морале да имаат симптоми слични на КОВИД или неодамна патувале во земја на списокот на жешки точки. Дополнително збунувачки резултатите е фактот што секој позитивен тест е изброен и секој негативен тест се брои. Вообичаено, кога поединецот бил позитивен на тестот, тие повторно би тестирале кога вирусот ќе го помине својот тек и би бил негативен. Значи, во извесна смисла, за секој позитивен случај има негативен тест случај кој го поништува. Огромното мнозинство на тестови се негативни и се бројат негативните тестови на секој поединец. Можете да видите како податоците се пристрасни и не се особено корисни за донесување одлуки. 

Внесувањето и обуката за вештачка интелигенција е пристрасно

Постојат најмалку два начини на кои вештачката интелигенција може да доведе до пристрасни резултати: почнувајќи со пристрасни податоци или користење на пристрасни алгоритми за обработка на валидни податоци.  

Пристрасен влез

Многумина од нас имаат впечаток дека на вештачката интелигенција може да и се верува да ги скрши бројките, да ги примени неговите алгоритми и да исплука сигурна анализа на податоците. Вештачката интелигенција може да биде толку паметна колку што е обучена. Ако податоците за кои е обучен се несовршени, нема да може да им се верува ниту на резултатите или заклучоците. Слично на случајот погоре со пристрасност во анкетата, постојат голем број начини на кои може да се добијат податоците пристрасно во машинското учење:.  

  • Пристрасност на примерокот - базата на податоци за обука не е репрезентативна за целата популација.
  • Пристрасност за исклучување - понекогаш она што изгледа како да е оддалеченост е всушност валидно или, каде што ја повлекуваме линијата за тоа што да вклучиме (поштенски шифри, датуми, итн.).
  • Мерење пристрасност – конвенцијата е секогаш да се мери од центарот и дното на менискусот, на пример, кога се мерат течности во волуметриски колби или епрувети (освен жива.)
  • Потсетете се на пристрасност – кога истражувањето зависи од меморијата на учесниците.
  • Пристрасност на набљудувачите - научниците, како и сите луѓе, се повеќе склони да го видат она што очекуваат да го видат.
  • Сексистичка и расистичка пристрасност - сексот или расата може да бидат премногу или недоволно застапени.  
  • Пристрасност на асоцијацијата – податоците ги зајакнуваат стереотипите

За вештачката интелигенција да врати сигурни резултати, нејзините податоци за обука треба да го претставуваат реалниот свет. Како што разговаравме во претходната статија на блогот, подготовката на податоците е критична и како и секој друг проект за податоци. Несигурните податоци можат да ги научат системите за машинско учење на погрешна лекција и ќе резултираат со погрешен заклучок. Тоа рече: „Сите податоци се пристрасни. Ова не е параноја. Ова е факт.” - д-р Сањив М. Нарајан, Медицинскиот факултет на Универзитетот Стенфорд.

Користењето на пристрасни податоци за обука доведе до голем број забележителни неуспеси на вештачката интелигенција. (Примери овде овде, истражување овде..)

Пристрасни алгоритми

Алгоритам е збир на правила кои прифаќаат влез и создава излез за да одговори на деловен проблем. Тие често се добро дефинирани дрвја за одлуки. Алгоритмите се чувствуваат како црни кутии. Никој не е сигурен како функционираат, често, дури ни тие компании кои ги користат. О, и тие често се сопственички. Нивната мистериозна и сложена природа е една од причините зошто пристрасните алгоритми се толку подмолни. . 

Размислете за алгоритми за вештачка интелигенција во медицината, човечките ресурси или финансиите што ја земаат предвид трката. Ако расата е фактор, алгоритмот не може да биде расно слеп. Ова не е теоретски. Проблеми како овие се откриени во реалниот свет користејќи вештачка интелигенција во вработување, возење-споделување, апликација за заемs, и трансплантација на бубрези

Заклучокот е дека ако вашите податоци или алгоритми се лоши, се полоши од бескорисни, тие може да бидат опасни. Постои такво нешто како „алгоритамска ревизија.“ Целта е да им се помогне на организациите да ги идентификуваат потенцијалните ризици поврзани со алгоритмот бидејќи тој се однесува на правичност, пристрасност и дискриминација. На друго место, Facebook користи вештачка интелигенција за борба против пристрасноста во вештачката интелигенција.

Луѓето се пристрасни

Имаме луѓе од двете страни на равенката. Луѓето ја подготвуваат анализата, а луѓето ги добиваат информациите. Има истражувачи и има читатели. Во секоја комуникација, може да има проблеми во преносот или приемот.

Земете го времето, на пример. Што значи „можност за дожд“? Прво, што мислат метеоролозите кога велат дека има можност за дожд? Според американската влада Националната метеоролошка служба, шанса за дожд, или како што го нарекуваат Веројатност за врнежи (PoP), е еден од најмалку разбраните елементи во временската прогноза. Има стандардна дефиниција: „Веројатноста за врнежи е едноставно статистичка веројатност од 0.01 инчи [sic] од [sic] повеќе врнежи во дадена област во дадената прогнозирана област во наведениот временски период. „Дадената област“ е прогнозирана област, или бroadлиена област. Тоа значи дека официјалната веројатност за врнежи зависи од увереноста дека ќе врне некаде во областа и од процентот на површината што ќе се навлажни. Со други зборови, ако метеорологот е уверен дека ќе врне во областа за прогнозирање (Доверба = 100%), тогаш PoP го претставува делот од областа што ќе добие дожд.  

Париската улица; Дождлив ден,Густав Кајлебот (1848-1894) Јавен домен на Институтот за уметност во Чикаго

Можноста за дожд зависи и од самодовербата и од областа. Јас не знаев дека. Се сомневам дека другите луѓе не го знаат тоа. Околу 75% од населението не разбира точно како се пресметува PoP или што треба да претставува. Значи, дали се залажуваме или, ова е проблем на перцепцијата. Да го наречеме перцепција на врнежи. Дали го обвинуваме синоптичарот? Да бидеме фер, има некои конфузија и меѓу синоптичарите. Во еден анкета, 43% од анкетираните метеоролозите рекле дека има многу мала конзистентност во дефиницијата за PoP.

Самата анализа е пристрасна

Од петте фактори кои влијаат, самата анализа може да биде најизненадувачка. Во научното истражување кое резултира со објавување на прегледен труд, обично се поставува хипотеза за теорија, се дефинираат методи за тестирање на хипотезата, се собираат податоци, а потоа се анализираат податоците. Видот на анализата што се прави и како се прави е недоволно ценет во тоа како влијае на заклучоците. Во хартија објавено претходно оваа година (јануари 2022 година), во International Journal of Cancer, авторите оценија дали резултатите од рандомизирани контролирани испитувања и ретроспективни набљудувачки студии. Нивните наоди заклучија дека,

Со менување на аналитичките избори во истражувањето на компаративната ефективност, генериравме спротивни резултати. Нашите резултати сугерираат дека некои ретроспективни опсервациски студии може да откријат дека третманот ги подобрува резултатите за пациентите, додека друга слична студија може да утврди дека не, едноставно врз основа на аналитички избори.

Во минатото, кога читате напис во научно списание, ако сте како мене, можеби мислевте дека резултатите или заклучоците се за сите податоци. Сега, се чини дека резултатите, или дали првичната хипотеза е потврдена или побиена, исто така може да зависи од методот на анализа.

Друга студија најде слични резултати. Артиклот, Многу аналитичари, еден збир на податоци: да се направи транспарентно како варијациите во аналитичките избори влијаат на резултатите, опишува како дале ист сет на податоци на 29 различни тимови за анализа. Анализата на податоците често се гледа како строг, добро дефиниран процес кој води до единствен заклучок.  

И покрај ремонстрациите на методолозите, лесно е да се занемари фактот дека резултатите може да зависат од избраната аналитичка стратегија, која сама по себе е проткаена со теорија, претпоставки и точки на избор. Во многу случаи, постојат многу разумни (и многу неразумни) пристапи за евалуација на податоците кои се однесуваат на истражувачко прашање.

Истражувачите ја превземаа анализата на податоците и дојдоа до заклучок дека целото истражување вклучува субјективни одлуки - вклучително и кој тип на анализа да се користи - што може да влијае на крајниот исход на студијата.

Препораката на друг истражувач кој ја анализирал горенаведената студија треба да биде претпазлив кога користи еден труд при донесување одлуки или донесување заклучоци.

Адресирање на пристрасност во Аналитика

Ова едноставно треба да биде предупредувачка приказна. Знаењето може да не заштити од измами. Колку повеќе се свесни за можните методи што скенерот би можел да ги користи за да нè измами, толку е помала веројатноста да бидеме прифатени, да речеме, од погрешно насочување на џепникот или непречено зборување за претставата Понци. Така е со разбирањето и препознавањето на потенцијалните предрасуди кои влијаат на нашата аналитика. Ако сме свесни за потенцијалните влијанија, можеби ќе можеме подобро да ја претставиме приказната и на крајот да донесеме подобри одлуки.  

БИ/АналитикаНекатегоризирано
Зошто Microsoft Excel е алатката број 1 за аналитика
Зошто Excel е алатката за аналитика број 1?

Зошто Excel е алатката за аналитика број 1?

  Тоа е ефтино и лесно. Софтверот за табеларни пресметки на Microsoft Excel веројатно е веќе инсталиран на компјутерот на деловниот корисник. И многу корисници денес се изложени на софтверот на Microsoft Office уште од средно училиште или уште порано. Овој непредвидлив одговор за ...

Прочитај повеќе

БИ/АналитикаНекатегоризирано
Расчистете ги вашите увиди: Водич за пролетно чистење на анализите

Расчистете ги вашите увиди: Водич за пролетно чистење на анализите

Расчистете ги вашите увиди Водич за пролетно чистење на аналитика Новата година започнува со жестоко; Извештаите за крајот на годината се креираат и детално се проверуваат, а потоа сите се населуваат во конзистентен распоред за работа. Како што деновите стануваат подолги, а дрвјата и цвеќињата цветаат,...

Прочитај повеќе

БИ/АналитикаНекатегоризирано
Њу Стил против пица во Чикаго: вкусна дебата

Њу Стил против пица во Чикаго: вкусна дебата

Кога ги задоволуваме нашите желби, малку работи можат да се спротивстават на радоста на жешкото парче пица. Дебатата меѓу пицата во стилот на Њујорк и во стилот на Чикаго предизвикува страсни дискусии со децении. Секој стил има свои уникатни карактеристики и посветени обожаватели....

Прочитај повеќе

БИ/АналитикаCognos Analytics
Cognos Query Studio
Вашите корисници го сакаат нивното студио за прашања

Вашите корисници го сакаат нивното студио за прашања

Со објавувањето на IBM Cognos Analytics 12, долго најавуваното укинување на Query Studio и Analysis Studio конечно беше испорачано со верзија на Cognos Analytics минус тие студија. Иако ова не треба да биде изненадување за повеќето луѓе ангажирани во ...

Прочитај повеќе

БИ/АналитикаНекатегоризирано
Дали ефектот на Тејлор Свифт е реален?

Дали ефектот на Тејлор Свифт е реален?

Некои критичари сугерираат дека таа ги зголемува цените на билетите за Супер Боул Овој викенд Супер Боул се очекува да биде еден од првите 3 најгледани настани во историјата на телевизијата. Веројатно повеќе од минатогодишните рекордни бројки, а можеби дури и повеќе од месечината во 1969 година...

Прочитај повеќе

БИ/Аналитика
Каталози за аналитика – Ѕвезда во подем во екосистемот за аналитика

Каталози за аналитика – Ѕвезда во подем во екосистемот за аналитика

Вовед Како главен директор за технологија (CTO), секогаш сум во потрага по новите технологии кои го трансформираат начинот на кој пристапуваме кон аналитиката. Една таква технологија која ми го привлече вниманието во последните неколку години и ветува огромно е Аналитика...

Прочитај повеќе