Analytics dối trá

by Tháng Tám 31, 2022BI / Analytics0 comments

Analytics dối trá

Xu hướng phân tích

 

Mark Twain đã nói một cách đầy tranh cãi những điều như, “Có ba loại dối trá: dối trá, dối trá chết tiệt và phân tích". 

Chúng tôi cho rằng số liệu phân tích cung cấp cho chúng tôi những thông tin chi tiết hữu ích, có thể hành động được. Điều chúng ta thường không nhận ra là thành kiến ​​của chính mình và của những người khác ảnh hưởng như thế nào đến câu trả lời mà chúng ta đưa ra bởi ngay cả những phần mềm và hệ thống tinh vi nhất. Đôi khi, chúng ta có thể bị thao túng một cách không trung thực, nhưng, phổ biến hơn, đó có thể là những thành kiến ​​tinh tế và vô thức len lỏi vào các phân tích của chúng ta. Động lực đằng sau phân tích thành kiến ​​còn nhiều gấp nhiều lần. Đôi khi, kết quả khách quan mà chúng ta mong đợi từ khoa học bị ảnh hưởng bởi 1) những lựa chọn tinh tế trong cách trình bày dữ liệu, 2) dữ liệu không nhất quán hoặc không đại diện, 3) cách hệ thống AI được đào tạo, 4) sự thiếu hiểu biết, kém năng lực của các nhà nghiên cứu hoặc những người khác đang cố gắng để kể câu chuyện, 5) bản thân phân tích.    

Bản trình bày có thành kiến

Một số lời nói dối dễ phát hiện hơn những lời nói dối khác. Khi bạn biết những gì cần tìm, bạn có thể dễ dàng phát hiện ra đồ thị và biểu đồ sai lệch. 

Có ít nhất năm cách để hiển thị sai dữ liệu: 1) Hiển thị một tập dữ liệu giới hạn, 2). Hiển thị các mối tương quan không liên quan, 3) Hiển thị dữ liệu không chính xác, 4) Hiển thị dữ liệu không theo quy ước, hoặc 5). Hiển thị dữ liệu được đơn giản hóa quá mức.

Hiển thị một tập dữ liệu giới hạn

Giới hạn dữ liệu hoặc chọn thủ công một phần không ngẫu nhiên của dữ liệu thường có thể kể một câu chuyện không phù hợp với bức tranh lớn. Lấy mẫu sai, hoặc hái anh đào, là khi nhà phân tích sử dụng một mẫu không đại diện để đại diện cho một nhóm lớn hơn. 

Vào tháng 3, 2020, Sở Y tế Công cộng Georgia đã xuất bản biểu đồ này như một phần của báo cáo trạng thái hàng ngày của nó. Nó thực sự đặt ra nhiều câu hỏi hơn là câu trả lời.  

Một trong những thứ còn thiếu là ngữ cảnh. Ví dụ, sẽ rất hữu ích nếu biết phần trăm dân số của mỗi nhóm tuổi là bao nhiêu. Một vấn đề khác với biểu đồ hình tròn là các nhóm tuổi không đồng đều. 0-17 có 18 năm, 18-59 có 42, 60+ mở đã kết thúc, nhưng có khoảng 40 năm. Kết luận, chỉ dựa trên biểu đồ này, là phần lớn các trường hợp là ở nhóm tuổi 18-59. Nhóm tuổi trên 60 có vẻ ít bị ảnh hưởng bởi các trường hợp COVID hơn. Nhưng đây không phải là toàn bộ câu chuyện.

Để so sánh, tập dữ liệu khác nhau này trên Trang web CDC biểu đồ các trường hợp COVID theo nhóm tuổi với dữ liệu bổ sung về phần trăm Dân số Hoa Kỳ ở mỗi độ tuổi.  

Thế này tốt hơn. Chúng tôi có nhiều bối cảnh hơn. Chúng ta có thể thấy rằng các nhóm tuổi 18-29, 30-39, 40-49 đều có tỷ lệ mắc bệnh cao hơn tỷ lệ mắc của nhóm tuổi trong dân số. Vẫn còn một số nhóm tuổi không đồng đều. Tại sao 16-17 là một nhóm tuổi riêng biệt? Tuy nhiên, đây không phải là toàn bộ câu chuyện, nhưng các chuyên gia đã viết các cột, đưa ra dự đoán và các nhiệm vụ về ít hơn thế này. Rõ ràng, với COVID, có nhiều biến số ngoài tuổi ảnh hưởng đến việc được tính là một trường hợp dương tính: tình trạng tiêm chủng, tình trạng sẵn sàng xét nghiệm, số lần xét nghiệm, bệnh đi kèm và nhiều yếu tố khác. Số trường hợp tự nó cung cấp một bức tranh không đầy đủ. Hầu hết các chuyên gia cũng xem xét Số người chết, hoặc tỷ lệ phần trăm tử vong trên 100,000 dân, hoặc các trường hợp tử vong để xem COVID ảnh hưởng như thế nào đến từng nhóm tuổi.

Hiển thị các mối tương quan không liên quan

Rõ ràng, có một tương quan mạnh mẽ giữa chi tiêu của Hoa Kỳ cho khoa học, không gian và công nghệ và số vụ Tự sát bằng cách treo cổ, bóp cổ và chết ngạt. Tương quan là 99.79%, gần như là một kết quả hoàn hảo.  

Tuy nhiên, ai sẽ đặt ra trường hợp rằng những điều này có liên quan đến nhau bằng cách nào đó, hoặc một nguyên nhân gây ra cái kia? Có những ví dụ khác ít cực đoan hơn, nhưng không kém phần giả tạo. Có một mối tương quan chặt chẽ tương tự giữa các Chữ cái trong Lời chiến thắng của Ong Chính tả Quốc gia Scripps và Số người bị giết bởi Nhện độc. Sự trùng hợp ngẫu nhiên? Bạn quyết định.

Một cách khác để lập biểu đồ dữ liệu này có thể ít gây hiểu lầm hơn là bao gồm số XNUMX trên cả hai trục Y.

Hiển thị dữ liệu không chính xác

Từ Cách hiển thị dữ liệu xấu, Tiểu bang Georgia của Hoa Kỳ đã trình bày Top 5 Quận có Số lượng Trường hợp COVID-19 được xác nhận nhiều nhất.

Có vẻ hợp pháp, phải không? Rõ ràng có một xu hướng giảm của các trường hợp COVID-19 đã được xác nhận. Bạn có thể đọc trục X không? Trục X đại diện cho thời gian. Thông thường, ngày tháng sẽ tăng từ trái sang phải. Ở đây, chúng ta thấy một chút du hành thời gian trên trục X: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

Chờ đợi? Gì? Trục X không được sắp xếp theo thứ tự thời gian. Vì vậy, dù xu hướng có thể tốt như thế nào, chúng tôi không thể đưa ra bất kỳ kết luận nào. Nếu ngày tháng được đặt theo thứ tự, các thanh cho số trường hợp hiển thị mô hình răng cưa nhiều hơn bất kỳ loại xu hướng nào.

Cách khắc phục dễ dàng ở đây là sắp xếp ngày theo cách của lịch.

Hiển thị dữ liệu bất thường

Tất cả chúng ta đều bận rộn. Bộ não của chúng ta đã dạy chúng ta đưa ra những phán đoán nhanh chóng dựa trên những giả định đã nhất quán trong thế giới của chúng ta. Ví dụ: mọi đồ thị tôi từng thấy đều cho thấy trục x và y gặp nhau ở giá trị XNUMX hoặc thấp nhất. Nhìn sơ qua biểu đồ này, bạn có thể rút ra kết luận gì về ảnh hưởng của “Hãy tuân theo luật cơ bản của bạn.”? Tôi xấu hổ khi thừa nhận điều đó, nhưng biểu đồ này đã đánh lừa tôi lúc đầu. Mắt của bạn được vẽ thuận tiện vào văn bản và mũi tên ở giữa đồ họa. Đồ thị này đi xuống. Nó có thể không phải là một lời nói dối - tất cả dữ liệu đều ở đó. Nhưng, tôi phải nghĩ rằng nó nhằm mục đích lừa dối. Nếu bạn chưa nhìn thấy nó, số XNUMX trên trục y là ở trên cùng. Vì vậy, khi dữ liệu có xu hướng giảm, điều đó có nghĩa là nhiều người chết hơn. Biểu đồ này cho thấy số vụ giết người bằng súng tăng sau năm 2005, được chỉ ra bởi xu hướng xuống.

Hiển thị dữ liệu được đơn giản hóa quá mức

Có thể thấy một ví dụ về việc đơn giản hóa quá mức dữ liệu khi các nhà phân tích tận dụng Nghịch lý Simpson. Đây là một hiện tượng xảy ra khi dữ liệu tổng hợp xuất hiện để chứng minh một kết luận khác với khi nó được tách thành các tập hợp con. Cái bẫy này rất dễ rơi vào khi nhìn vào tỷ lệ phần trăm tổng hợp ở mức cao. Một trong những minh họa rõ ràng nhất về Nghịch lý Simpson tại nơi làm việc liên quan đến trung bình đánh bóng.  

Ở đây chúng ta thấy rằng Derek Jeter có tổng số lần đánh bóng trung bình cao hơn David Justice trong các mùa giải 1995 và 1996. Điều nghịch lý xảy ra khi chúng ta nhận ra rằng Justice đã vượt qua Jeter về điểm trung bình đánh bóng trong cả hai năm đó. Nếu bạn xem xét cẩn thận, sẽ có ý nghĩa khi bạn nhận ra rằng Jeter có số at-bats nhiều hơn khoảng 4 lần (mẫu số) vào năm 1996 với mức trung bình thấp hơn 007 vào năm 1996. Trong khi đó, Justice chỉ có số lượng at-bats gấp 10 lần. 003 cao hơn mức trung bình vào năm 1995.

Bài thuyết trình có vẻ đơn giản, nhưng Nghịch lý của Simpson, một cách dí dỏm, hoặc vô tình, đã dẫn đến những kết luận không chính xác. Gần đây, đã có những ví dụ về Nghịch lý Simpson trên tin tức và trên phương tiện truyền thông xã hội liên quan đến vắc-xin và tỷ lệ tử vong do COVID. Một biểu đồ hiển thị biểu đồ đường so sánh tỷ lệ tử vong giữa tiêm chủng và không tiêm chủng đối với những người từ 10-59 tuổi. Biểu đồ chứng minh rằng những người không được tiêm chủng luôn có tỷ lệ tử vong thấp hơn. Những gì đang xảy ra ở đây?  

Vấn đề tương tự như vấn đề chúng ta thấy với trung bình đánh bóng. Mẫu số trong trường hợp này là số lượng cá thể trong mỗi nhóm tuổi. Biểu đồ kết hợp các nhóm có kết quả khác nhau. Nếu chúng ta nhìn riêng vào nhóm tuổi lớn hơn, 50-59, chúng ta thấy rằng giá tiêm chủng tốt hơn. Tương tự như vậy, nếu chúng ta nhìn vào 10-49, chúng ta cũng thấy rằng giá vé tiêm chủng tốt hơn. Nghịch lý thay, khi nhìn vào tập hợp kết hợp, những người không được tiêm chủng lại có kết quả tồi tệ hơn. Bằng cách này, bạn có thể tạo trường hợp cho các đối số ngược lại bằng cách sử dụng dữ liệu.

Dữ liệu được thiên vị

Dữ liệu không phải lúc nào cũng đáng tin cậy. Ngay cả trong cộng đồng khoa học, hơn một phần ba số nhà nghiên cứu được khảo sát thừa nhận "Thực hành nghiên cứu có vấn đề."  Một thám tử gian lận nghiên cứu cho biết, “Rất có thể có nhiều gian lận trong dữ liệu - bảng, biểu đồ đường, dữ liệu trình tự [- hơn những gì chúng ta đang thực sự phát hiện ra]. Bất kỳ ai ngồi vào bàn bếp của họ đều có thể đặt một số con số vào bảng tính và tạo một biểu đồ đường trông rất thuyết phục. ”

Điều này đầu tiên ví dụ có vẻ như ai đó đã làm điều đó. Tôi không nói đây là gian lận, nhưng là một cuộc khảo sát, nó không tạo ra bất kỳ dữ liệu nào góp phần đưa ra quyết định sáng suốt. Có vẻ như cuộc khảo sát đã hỏi những người được hỏi về ý kiến ​​của họ về cà phê tại trạm xăng hoặc một số sự kiện hiện tại có liên quan khác .. 

  1. Tuyệt vời 
  2. Tuyệt vời
  3. Rất tốt 

Tôi đã cắt bài đăng trên Twitter để xóa các tham chiếu đến bên có tội, nhưng đây là toàn bộ biểu đồ thực tế về kết quả cuối cùng của cuộc khảo sát. Những cuộc khảo sát như thế này không phải là hiếm. Rõ ràng, bất kỳ biểu đồ nào được tạo ra từ dữ liệu thu được từ các câu trả lời sẽ cho thấy loại cà phê được đề cập là không thể bỏ qua.  

Vấn đề là nếu bạn đã được tham gia cuộc khảo sát này và không tìm thấy câu trả lời phù hợp với suy nghĩ của mình, bạn sẽ bỏ qua cuộc khảo sát. Đây có thể là một ví dụ điển hình về cách có thể tạo ra dữ liệu không đáng tin cậy. Tuy nhiên, thiết kế khảo sát kém có thể dẫn đến ít phản hồi hơn và những người trả lời chỉ có một ý kiến, đó chỉ là vấn đề mức độ. Dữ liệu bị sai lệch.

Ví dụ thứ hai về sai lệch dữ liệu là từ các tệp của “Tồi tệ nhất COVID 19 Đồ thị gây hiểu lầm". 

Một lần nữa, điều này là tinh tế và không hoàn toàn rõ ràng. Biểu đồ thanh cho thấy tỷ lệ phần trăm trường hợp COVID-19 dương tính giảm theo thời gian đối với một quận ở Florida. Bạn có thể dễ dàng rút ra kết luận rằng các trường hợp đang giảm. Điều đó thật tuyệt, hình ảnh trực quan thể hiện chính xác dữ liệu. Vấn đề là ở dữ liệu. Vì vậy, đó là một thành kiến ​​ngấm ngầm hơn bởi vì bạn không thể nhìn thấy nó. Nó được đưa vào dữ liệu. Những câu hỏi mà bạn cần hỏi, bao gồm, ai đang được kiểm tra? Nói cách khác, mẫu số hoặc dân số mà chúng ta đang xem xét theo tỷ lệ phần trăm là bao nhiêu. Giả định rằng đó là toàn bộ tập hợp, hoặc ít nhất, là một mẫu đại diện.

Tuy nhiên, trong thời kỳ này, tại quận này, các bài kiểm tra chỉ được đưa ra cho một số người hạn chế. Họ phải có các triệu chứng giống như COVID hoặc đã đi du lịch gần đây đến một quốc gia nằm trong danh sách các điểm nóng. Ngoài ra, kết quả gây nhiễu là thực tế là mỗi thử nghiệm dương tính được tính và mỗi thử nghiệm âm tính được tính. Thông thường, khi một cá nhân có kết quả xét nghiệm dương tính, họ sẽ xét nghiệm lại khi vi rút đã chạy hết và sẽ cho kết quả âm tính. Vì vậy, theo một nghĩa nào đó, đối với mỗi trường hợp tích cực, sẽ có một trường hợp thử nghiệm tiêu cực loại bỏ nó. Phần lớn các bài kiểm tra là âm tính và các bài kiểm tra âm tính của mỗi cá nhân đã được tính. Bạn có thể thấy dữ liệu bị sai lệch như thế nào và không đặc biệt hữu ích cho việc đưa ra quyết định. 

Đầu vào và đào tạo AI bị sai lệch

Có ít nhất hai cách mà AI có thể dẫn đến kết quả thiên vị: bắt đầu với dữ liệu thiên vị hoặc sử dụng thuật toán thiên vị để xử lý dữ liệu hợp lệ.  

Đầu vào thiên vị

Nhiều người trong chúng ta có ấn tượng rằng AI có thể được tin cậy để xử lý các con số, áp dụng các thuật toán của nó và đưa ra một phân tích đáng tin cậy về dữ liệu. Trí tuệ nhân tạo chỉ có thể thông minh khi nó được đào tạo. Nếu dữ liệu mà nó được đào tạo không hoàn hảo, thì kết quả hoặc kết luận cũng sẽ không thể tin cậy được. Tương tự như trường hợp sai lệch khảo sát ở trên, có một số cách để dữ liệu có thể có thành kiến trong học máy:.  

  • Độ lệch mẫu - tập dữ liệu đào tạo không đại diện cho toàn bộ dân số.
  • Xu hướng loại trừ - đôi khi những gì có vẻ là ngoại lệ thực sự hợp lệ hoặc, nơi chúng tôi vạch ra những gì cần bao gồm (mã zip, ngày tháng, v.v.).
  • Độ chệch của phép đo - quy ước là luôn đo từ tâm và đáy của mặt khum, ví dụ, khi đo chất lỏng trong bình định mức hoặc ống nghiệm (trừ thủy ngân.)
  • Sự thiên vị nhớ lại - khi nghiên cứu phụ thuộc vào trí nhớ của người tham gia.
  • Thành kiến ​​của người quan sát - các nhà khoa học, giống như tất cả con người, có xu hướng xem những gì họ mong đợi.
  • Thành kiến ​​phân biệt giới tính và phân biệt chủng tộc - giới tính hoặc chủng tộc có thể được đại diện quá mức hoặc ít hơn.  
  • Sự thiên vị liên kết - dữ liệu củng cố định kiến

Để AI trả lại kết quả đáng tin cậy, dữ liệu đào tạo của nó cần phải đại diện cho thế giới thực. Như chúng ta đã thảo luận trong một bài blog trước, việc chuẩn bị dữ liệu là rất quan trọng và giống như bất kỳ dự án dữ liệu nào khác. Dữ liệu không đáng tin cậy có thể dạy cho hệ thống máy học bài học sai và sẽ dẫn đến kết luận sai. Điều đó nói rằng, “Tất cả dữ liệu đều bị sai lệch. Đây không phải là hoang tưởng. Đây là thực tế." - Tiến sĩ Sanjiv M. Narayan, Trường Y Đại học Stanford.

Sử dụng dữ liệu thiên vị để đào tạo đã dẫn đến một số lỗi đáng chú ý của AI. (Ví dụ tại đâytại đây, nghiên cứu tại đây..)

Các thuật toán thiên vị

Thuật toán là một tập hợp các quy tắc chấp nhận một đầu vào và tạo ra đầu ra để trả lời một vấn đề kinh doanh. Chúng thường là những cây quyết định được xác định rõ ràng. Các thuật toán giống như hộp đen. Không ai chắc chắn chúng hoạt động như thế nào, ofen, thậm chí không các công ty sử dụng chúng. Ồ, và chúng thường là độc quyền. Bản chất bí ẩn và phức tạp của chúng là một trong những lý do tại sao các thuật toán thiên vị lại rất quỷ quyệt. . 

Hãy xem xét các thuật toán AI trong y học, nhân sự hoặc tài chính, những thuật toán có tính đến cuộc đua. Nếu chủng tộc là một yếu tố, thuật toán không thể mù mờ về chủng tộc. Đây không phải là lý thuyết. Những vấn đề như thế này đã được phát hiện trong thế giới thực bằng cách sử dụng AI trong thuê, chia sẻ chuyến đi, đơn xin vay tiềns, và cấy ghép thận

Điểm mấu chốt là nếu dữ liệu hoặc thuật toán của bạn tệ, tệ hơn là vô dụng, chúng có thể nguy hiểm. Có một thứ như là một “kiểm toán thuật toán. ” Mục đích là giúp các tổ chức xác định các rủi ro tiềm ẩn liên quan đến thuật toán vì nó liên quan đến sự công bằng, thiên vị và phân biệt đối xử. Ở những nơi khác, Facebook đang sử dụng AI để chống lại sự thiên vị trong AI.

Mọi người thiên vị

Chúng ta có những người ở cả hai phía của phương trình. Mọi người đang chuẩn bị phân tích và mọi người đang nhận thông tin. Có những nhà nghiên cứu và có những độc giả. Trong bất kỳ giao tiếp nào, có thể có vấn đề trong việc truyền hoặc nhận.

Lấy ví dụ về thời tiết. "Cơ hội có mưa" nghĩa là gì? Đầu tiên, các nhà khí tượng học có ý gì khi họ nói có khả năng mưa? Theo chính phủ Hoa Kỳ Dịch vụ thời tiết quốc gia, khả năng mưa, hay cái mà họ gọi là Xác suất mưa (PoP), là một trong những yếu tố ít được hiểu nhất trong dự báo thời tiết. Nó có một định nghĩa tiêu chuẩn: “Xác suất mưa chỉ đơn giản là xác suất thống kê của lượng mưa nhiều hơn 0.01 inch [sic] tại một khu vực nhất định trong khu vực dự báo nhất định trong khoảng thời gian được chỉ định.” "Khu vực nhất định" là khu vực dự báo, hoặc broadkhu đúc. Điều đó có nghĩa là Xác suất Mưa chính thức phụ thuộc vào độ tin cậy rằng trời sẽ mưa ở đâu đó trong khu vực và tỷ lệ phần trăm khu vực sẽ bị ướt. Nói cách khác, nếu nhà khí tượng học tin rằng trời sẽ mưa trong khu vực dự báo (Độ tin cậy = 100%), thì PoP đại diện cho phần khu vực sẽ nhận mưa.  

Phố Paris; Ngày mưa, Gustave Caillebotte (1848-1894) Tên miền công cộng của Viện nghệ thuật Chicago

Cơ hội của mưa phụ thuộc vào cả sự tự tin và khu vực. Tôi không biết điều đó. Tôi nghi ngờ những người khác cũng không biết điều đó. Khoảng 75% dân số không hiểu chính xác cách PoP được tính toán hoặc ý nghĩa của nó là gì. Vậy, chúng ta đang bị lừa, hay đây là vấn đề của nhận thức. Hãy gọi nó là nhận thức lượng mưa. Chúng ta có đổ lỗi cho người dự báo thời tiết không? Công bằng mà nói, có một số nhầm lẫn trong số các nhà dự báo thời tiết, quá. Trong một Khảo sát, 43% các nhà khí tượng học được khảo sát nói rằng có rất ít sự nhất quán trong định nghĩa về PoP.

Phân tích chính nó là thiên vị

Trong số năm yếu tố ảnh hưởng, bản thân phân tích có thể gây ngạc nhiên nhất. Trong nghiên cứu khoa học có kết quả là một bài báo được đánh giá được xuất bản, thông thường một lý thuyết được đưa ra, các phương pháp được xác định để kiểm tra giả thuyết, dữ liệu được thu thập, sau đó dữ liệu được phân tích. Loại phân tích được thực hiện và cách nó được thực hiện không được đánh giá cao về cách nó ảnh hưởng đến kết luận. Trong một giấy được công bố vào đầu năm nay (tháng 2022 năm XNUMX), trên Tạp chí Quốc tế về Ung thư, các tác giả đã đánh giá liệu kết quả của các thử nghiệm đối chứng ngẫu nhiên và các nghiên cứu quan sát hồi cứu. Phát hiện của họ kết luận rằng,

Bằng cách thay đổi các lựa chọn phân tích trong nghiên cứu hiệu quả so sánh, chúng tôi đã tạo ra các kết quả trái ngược. Kết quả của chúng tôi cho thấy rằng một số nghiên cứu quan sát hồi cứu có thể tìm thấy một phương pháp điều trị cải thiện kết quả cho bệnh nhân, trong khi một nghiên cứu tương tự khác có thể thấy không, chỉ đơn giản là dựa trên các lựa chọn phân tích.

Trước đây, khi đọc một bài báo trên tạp chí khoa học, nếu bạn giống tôi, bạn có thể nghĩ rằng kết quả hay kết luận đều dựa trên dữ liệu. Bây giờ, có vẻ như kết quả, hoặc liệu giả thuyết ban đầu được xác nhận hay bác bỏ cũng có thể phụ thuộc vào phương pháp phân tích.

Một nghiên cứu tìm thấy kết quả tương tự. Bài viết, Nhiều nhà phân tích, một tập dữ liệu: Làm minh bạch cách các biến thể trong các lựa chọn phân tích ảnh hưởng đến kết quả, mô tả cách họ cung cấp cùng một tập dữ liệu cho 29 nhóm khác nhau để phân tích. Phân tích dữ liệu thường được coi là một quy trình chặt chẽ, được xác định rõ ràng, dẫn đến một kết luận duy nhất.  

Bất chấp những nhận xét của các nhà phương pháp học, có thể dễ dàng bỏ qua thực tế rằng kết quả có thể phụ thuộc vào chiến lược phân tích đã chọn, bản thân chiến lược này đã được thấm nhuần bởi lý thuyết, giả định và các điểm lựa chọn. Trong nhiều trường hợp, có nhiều cách tiếp cận hợp lý (và nhiều không hợp lý) để đánh giá dữ liệu liên quan đến một câu hỏi nghiên cứu.

Các nhà nghiên cứu lấy nguồn từ cộng đồng phân tích dữ liệu và đi đến kết luận rằng tất cả các nghiên cứu đều bao gồm các quyết định chủ quan - bao gồm cả loại phân tích sẽ sử dụng - có thể ảnh hưởng đến kết quả cuối cùng của nghiên cứu ..

Đề xuất của người khác nhà nghiên cứu người đã phân tích nghiên cứu trên là hãy thận trọng khi sử dụng một tờ giấy duy nhất trong việc đưa ra quyết định hoặc đưa ra kết luận.

Giải quyết khuynh hướng trong Analytics

Đây chỉ đơn giản là một câu chuyện cảnh báo. Kiến thức có thể bảo vệ chúng ta khỏi bị lừa đảo. Càng biết rõ về các phương pháp có thể mà máy quét có thể sử dụng để đánh lừa chúng ta, chúng ta càng ít có khả năng bị thu hút, chẳng hạn như hành động sai hướng của một kẻ móc túi, hoặc nói suông về một vở kịch Ponzi. Vì vậy, việc hiểu và nhận ra những thành kiến ​​tiềm ẩn sẽ ảnh hưởng đến phân tích của chúng tôi. Nếu chúng ta nhận thức được những ảnh hưởng tiềm ẩn, chúng ta có thể trình bày câu chuyện tốt hơn và cuối cùng đưa ra quyết định tốt hơn.  

BI / AnalyticsUncategorized
Tại sao Microsoft Excel là công cụ phân tích số 1
Tại sao Excel là Công cụ phân tích số 1?

Tại sao Excel là Công cụ phân tích số 1?

  Nó rẻ và dễ dàng. Phần mềm bảng tính Microsoft Excel có thể đã được cài đặt trên máy tính của người dùng doanh nghiệp. Và nhiều người dùng ngày nay đã được tiếp xúc với phần mềm Microsoft Office từ khi còn học trung học hoặc thậm chí sớm hơn. Phản ứng giật đầu gối này đối với ...

Tìm hiểu thêm

BI / AnalyticsUncategorized
Làm rõ thông tin chi tiết của bạn: Hướng dẫn dọn dẹp mùa xuân trong phân tích

Làm rõ thông tin chi tiết của bạn: Hướng dẫn dọn dẹp mùa xuân trong phân tích

Sắp xếp lại những hiểu biết sâu sắc của bạn Hướng dẫn phân tích Dọn dẹp mùa xuân Năm mới bắt đầu một cách thành công; các báo cáo cuối năm được lập và xem xét kỹ lưỡng, sau đó mọi người sắp xếp lịch làm việc nhất quán. Khi ngày dài hơn và cây cối hoa nở,...

Tìm hiểu thêm

BI / AnalyticsUncategorized
NY Style và Chicago Style Pizza: Một cuộc tranh luận thú vị

NY Style và Chicago Style Pizza: Một cuộc tranh luận thú vị

Khi thỏa mãn cơn thèm của chúng ta, hiếm có thứ gì có thể sánh bằng niềm vui của một miếng bánh pizza nóng hổi. Cuộc tranh luận giữa pizza kiểu New York và pizza kiểu Chicago đã làm dấy lên những cuộc thảo luận sôi nổi trong nhiều thập kỷ. Mỗi phong cách đều có những đặc điểm riêng và được người hâm mộ cuồng nhiệt....

Tìm hiểu thêm

BI / AnalyticsPhân tích Cognos
Studio truy vấn Cognos
Người dùng của bạn muốn Studio truy vấn của họ

Người dùng của bạn muốn Studio truy vấn của họ

Với việc phát hành IBM Cognos Analytics 12, việc ngừng sử dụng Query Studio và Analysis Studio đã được thông báo từ lâu cuối cùng đã được cung cấp cùng với một phiên bản Cognos Analytics trừ đi các studio đó. Mặc dù điều này không gây ngạc nhiên cho hầu hết những người tham gia vào...

Tìm hiểu thêm

BI / AnalyticsUncategorized
Hiệu ứng Taylor Swift có thật không?

Hiệu ứng Taylor Swift có thật không?

Một số nhà phê bình cho rằng cô đang đẩy giá vé Super Bowl lên cao. Super Bowl cuối tuần này được dự đoán sẽ là một trong 3 sự kiện được xem nhiều nhất trong lịch sử truyền hình. Có lẽ nhiều hơn những con số lập kỷ lục của năm ngoái và thậm chí có thể nhiều hơn cả mặt trăng năm 1969...

Tìm hiểu thêm

BI / Analytics
Danh mục Analytics – Ngôi sao mới nổi trong Hệ sinh thái Analytics

Danh mục Analytics – Ngôi sao mới nổi trong Hệ sinh thái Analytics

Giới thiệu Với tư cách là Giám đốc Công nghệ (CTO), tôi luôn tìm kiếm các công nghệ mới nổi có thể thay đổi cách chúng ta tiếp cận phân tích. Một công nghệ như vậy đã thu hút sự chú ý của tôi trong vài năm qua và có nhiều hứa hẹn là Phân tích...

Tìm hiểu thêm