ಅನಾಲಿಟಿಕ್ಸ್ ಸುಳ್ಳು

by ಆಗಸ್ಟ್ 31, 2022BI/Analytics0 ಕಾಮೆಂಟ್ಗಳನ್ನು

ಅನಾಲಿಟಿಕ್ಸ್ ಸುಳ್ಳು

ವಿಶ್ಲೇಷಣೆಯ ಪಕ್ಷಪಾತ

 

ಮಾರ್ಕ್ ಟ್ವೈನ್ ಚರ್ಚಾಸ್ಪದವಾಗಿ ಹೀಗೆ ಹೇಳಿದರು: “ಮೂರು ವಿಧದ ಸುಳ್ಳುಗಳಿವೆ: ಸುಳ್ಳು, ಖಂಡನೀಯ ಸುಳ್ಳು ಮತ್ತು ವಿಶ್ಲೇಷಣೆ. " 

ವಿಶ್ಲೇಷಣೆಯು ನಮಗೆ ಉಪಯುಕ್ತ, ಕಾರ್ಯಸಾಧ್ಯವಾದ ಒಳನೋಟಗಳನ್ನು ನೀಡುತ್ತದೆ ಎಂಬುದನ್ನು ನಾವು ಲಘುವಾಗಿ ಪರಿಗಣಿಸುತ್ತೇವೆ. ನಮ್ಮ ಸ್ವಂತ ಪಕ್ಷಪಾತಗಳು ಮತ್ತು ಇತರರ ಪೂರ್ವಾಗ್ರಹಗಳು ನಾವು ಹೆಚ್ಚು ಅತ್ಯಾಧುನಿಕ ಸಾಫ್ಟ್‌ವೇರ್ ಮತ್ತು ಸಿಸ್ಟಂಗಳು ನೀಡುವ ಉತ್ತರಗಳ ಮೇಲೆ ಹೇಗೆ ಪ್ರಭಾವ ಬೀರುತ್ತವೆ ಎಂಬುದು ನಮಗೆ ಸಾಮಾನ್ಯವಾಗಿ ತಿಳಿದಿರುವುದಿಲ್ಲ. ಕೆಲವೊಮ್ಮೆ, ನಾವು ಅಪ್ರಾಮಾಣಿಕವಾಗಿ ಕುಶಲತೆಯಿಂದ ವರ್ತಿಸಬಹುದು, ಆದರೆ, ಸಾಮಾನ್ಯವಾಗಿ, ಇದು ನಮ್ಮ ವಿಶ್ಲೇಷಣೆಯಲ್ಲಿ ಹರಿದಾಡುವ ಸೂಕ್ಷ್ಮ ಮತ್ತು ಪ್ರಜ್ಞಾಹೀನ ಪಕ್ಷಪಾತಗಳಾಗಿರಬಹುದು. ಪಕ್ಷಪಾತದ ವಿಶ್ಲೇಷಣೆಯ ಹಿಂದಿನ ಪ್ರೇರಣೆ ಹಲವು ಪಟ್ಟು. ಕೆಲವೊಮ್ಮೆ ನಾವು ವಿಜ್ಞಾನದಿಂದ ನಿರೀಕ್ಷಿಸುವ ನಿಷ್ಪಕ್ಷಪಾತ ಫಲಿತಾಂಶಗಳು 1) ಡೇಟಾವನ್ನು ಹೇಗೆ ಪ್ರಸ್ತುತಪಡಿಸಲಾಗಿದೆ ಎಂಬುದರ ಸೂಕ್ಷ್ಮ ಆಯ್ಕೆಗಳು, 2) ಅಸಮಂಜಸ ಅಥವಾ ಪ್ರತಿನಿಧಿಸದ ಡೇಟಾ, 3) AI ವ್ಯವಸ್ಥೆಗಳು ಹೇಗೆ ತರಬೇತಿ ಪಡೆದಿವೆ, 4) ಅಜ್ಞಾನ, ಸಂಶೋಧಕರು ಅಥವಾ ಇತರರ ಅಸಮರ್ಥತೆಗಳಿಂದ ಪ್ರಭಾವಿತವಾಗಿರುತ್ತದೆ. ಕಥೆಯನ್ನು ಹೇಳಲು, 5) ವಿಶ್ಲೇಷಣೆ ಸ್ವತಃ.    

ಪ್ರಸ್ತುತಿ ಪಕ್ಷಪಾತವಾಗಿದೆ

ಕೆಲವು ಸುಳ್ಳುಗಳನ್ನು ಇತರರಿಗಿಂತ ಸುಲಭವಾಗಿ ಗುರುತಿಸಬಹುದು. ಏನನ್ನು ಹುಡುಕಬೇಕೆಂದು ನಿಮಗೆ ತಿಳಿದಾಗ ನೀವು ಹೆಚ್ಚು ಸುಲಭವಾಗಿ ಸಂಭಾವ್ಯವಾಗಿ ಪತ್ತೆಹಚ್ಚಬಹುದು ತಪ್ಪುದಾರಿಗೆಳೆಯುವ ಗ್ರಾಫ್‌ಗಳು ಮತ್ತು ಚಾರ್ಟ್‌ಗಳು. 

ಕನಿಷ್ಠ ಇವೆ ಡೇಟಾವನ್ನು ತಪ್ಪಾಗಿ ಪ್ರದರ್ಶಿಸಲು ಐದು ಮಾರ್ಗಗಳು: 1) ಸೀಮಿತ ಡೇಟಾ ಸೆಟ್ ಅನ್ನು ತೋರಿಸಿ, 2). ಸಂಬಂಧವಿಲ್ಲದ ಪರಸ್ಪರ ಸಂಬಂಧಗಳನ್ನು ತೋರಿಸಿ, 3) ಡೇಟಾವನ್ನು ತಪ್ಪಾಗಿ ತೋರಿಸಿ, 4) ಅಸಾಂಪ್ರದಾಯಿಕವಾಗಿ ಡೇಟಾವನ್ನು ತೋರಿಸಿ, ಅಥವಾ 5). ಅತಿ ಸರಳೀಕೃತ ಡೇಟಾವನ್ನು ತೋರಿಸಿ.

ಸೀಮಿತ ಡೇಟಾ ಸೆಟ್ ಅನ್ನು ತೋರಿಸಿ

ಡೇಟಾವನ್ನು ಸೀಮಿತಗೊಳಿಸುವುದು ಅಥವಾ ಡೇಟಾದ ಯಾದೃಚ್ಛಿಕವಲ್ಲದ ವಿಭಾಗವನ್ನು ಕೈಯಿಂದ ಆಯ್ಕೆಮಾಡುವುದು ದೊಡ್ಡ ಚಿತ್ರದೊಂದಿಗೆ ಸ್ಥಿರವಾಗಿಲ್ಲದ ಕಥೆಯನ್ನು ಹೇಳಬಹುದು. ದೊಡ್ಡ ಗುಂಪನ್ನು ಪ್ರತಿನಿಧಿಸಲು ವಿಶ್ಲೇಷಕರು ಪ್ರತಿನಿಧಿಯಲ್ಲದ ಮಾದರಿಯನ್ನು ಬಳಸಿದಾಗ ಕೆಟ್ಟ ಮಾದರಿ ಅಥವಾ ಚೆರ್ರಿ ಪಿಕಿಂಗ್. 

ಮಾರ್ಚ್ 2020 ನಲ್ಲಿ, ಜಾರ್ಜಿಯಾದ ಸಾರ್ವಜನಿಕ ಆರೋಗ್ಯ ಇಲಾಖೆ ತನ್ನ ದೈನಂದಿನ ಸ್ಥಿತಿ ವರದಿಯ ಭಾಗವಾಗಿ ಈ ಚಾರ್ಟ್ ಅನ್ನು ಪ್ರಕಟಿಸಿದೆ. ಇದು ವಾಸ್ತವವಾಗಿ ಉತ್ತರಿಸುವುದಕ್ಕಿಂತ ಹೆಚ್ಚಿನ ಪ್ರಶ್ನೆಗಳನ್ನು ಹುಟ್ಟುಹಾಕುತ್ತದೆ.  

ಕಾಣೆಯಾಗಿರುವ ವಿಷಯಗಳಲ್ಲಿ ಒಂದು ಸಂದರ್ಭವಾಗಿದೆ. ಉದಾಹರಣೆಗೆ, ಪ್ರತಿ ವಯೋಮಾನದ ಜನಸಂಖ್ಯೆಯ ಶೇಕಡಾವಾರು ಎಷ್ಟು ಎಂದು ತಿಳಿಯಲು ಇದು ಸಹಾಯಕವಾಗಿರುತ್ತದೆ. ಸರಳವಾಗಿ ಕಾಣುವ ಪೈ ಚಾರ್ಟ್‌ನ ಮತ್ತೊಂದು ಸಮಸ್ಯೆ ಎಂದರೆ ಅಸಮ ವಯಸ್ಸಿನ ಗುಂಪುಗಳು. 0-17 18 ವರ್ಷಗಳನ್ನು ಹೊಂದಿದೆ, 18-59 42 ಅನ್ನು ಹೊಂದಿದೆ, 60+ ಮುಕ್ತವಾಗಿದೆ, ಆದರೆ ಸುಮಾರು 40 ವರ್ಷಗಳನ್ನು ಹೊಂದಿದೆ. ಈ ಚಾರ್ಟ್ ಅನ್ನು ಮಾತ್ರ ನೀಡಿದ ತೀರ್ಮಾನವೆಂದರೆ, ಹೆಚ್ಚಿನ ಪ್ರಕರಣಗಳು 18-59 ವರ್ಷ ವಯಸ್ಸಿನವರಲ್ಲಿವೆ. 60+ ವರ್ಷ ವಯಸ್ಸಿನವರು COVID ಪ್ರಕರಣಗಳಿಂದ ಕಡಿಮೆ ತೀವ್ರವಾಗಿ ಪರಿಣಾಮ ಬೀರುವಂತೆ ತೋರುತ್ತಿದೆ. ಆದರೆ ಇದು ಸಂಪೂರ್ಣ ಕಥೆಯಲ್ಲ.

ಹೋಲಿಕೆಗಾಗಿ, ಈ ವಿಭಿನ್ನ ಡೇಟಾವನ್ನು ಹೊಂದಿಸಲಾಗಿದೆ CDC ವೆಬ್ ಸೈಟ್ ಪ್ರತಿ ವಯಸ್ಸಿನ ಶ್ರೇಣಿಯಲ್ಲಿರುವ US ಜನಸಂಖ್ಯೆಯ ಶೇಕಡಾವಾರು ಹೆಚ್ಚುವರಿ ಡೇಟಾದೊಂದಿಗೆ ವಯೋಮಾನದ ಪ್ರಕಾರ COVID ಪ್ರಕರಣಗಳನ್ನು ಪಟ್ಟಿ ಮಾಡಿ.  

ಇದು ಉತ್ತಮ. ನಮಗೆ ಹೆಚ್ಚಿನ ಸಂದರ್ಭವಿದೆ. 18-29, 30-39, 40-49 ವಯೋಮಾನದವರು ಜನಸಂಖ್ಯೆಯಲ್ಲಿನ ವಯಸ್ಸಿನ ಗುಂಪಿನ ಶೇಕಡಾವಾರು ಪ್ರಕರಣಗಳಿಗಿಂತ ಹೆಚ್ಚಿನ ಶೇಕಡಾವಾರು ಪ್ರಕರಣಗಳನ್ನು ಹೊಂದಿದ್ದಾರೆ ಎಂದು ನಾವು ನೋಡಬಹುದು. ಇನ್ನೂ ಕೆಲವು ಅಸಮ ವಯಸ್ಸಿನ ಗುಂಪುಗಳಿವೆ. 16-17 ಪ್ರತ್ಯೇಕ ವಯೋಮಾನ ಏಕೆ? ಇನ್ನೂ ಇದು ಸಂಪೂರ್ಣ ಕಥೆಯಲ್ಲ, ಆದರೆ ಪಂಡಿತರು ಅಂಕಣಗಳನ್ನು ಬರೆದಿದ್ದಾರೆ, ಭವಿಷ್ಯ ನುಡಿದಿದ್ದಾರೆ ಮತ್ತು ಇದಕ್ಕಿಂತ ಕಡಿಮೆ ಆದೇಶಗಳನ್ನು ನೀಡಿದ್ದಾರೆ. ನಿಸ್ಸಂಶಯವಾಗಿ, COVID ನೊಂದಿಗೆ, ವಯಸ್ಸಿಗೆ ಹೆಚ್ಚುವರಿಯಾಗಿ ಅನೇಕ ಅಸ್ಥಿರಗಳಿವೆ, ಅದು ಧನಾತ್ಮಕ ಪ್ರಕರಣವೆಂದು ಪರಿಗಣಿಸಲ್ಪಡುತ್ತದೆ: ವ್ಯಾಕ್ಸಿನೇಷನ್ ಸ್ಥಿತಿ, ಪರೀಕ್ಷೆಗಳ ಲಭ್ಯತೆ, ಪರೀಕ್ಷಿಸಿದ ಬಾರಿ, ಕೊಮೊರ್ಬಿಡಿಟಿಗಳು ಮತ್ತು ಇತರ ಹಲವು. ಪ್ರಕರಣಗಳ ಸಂಖ್ಯೆ, ಸ್ವತಃ ಅಪೂರ್ಣ ಚಿತ್ರವನ್ನು ಒದಗಿಸುತ್ತದೆ. ಹೆಚ್ಚಿನ ತಜ್ಞರು ಸಾವಿನ ಸಂಖ್ಯೆ ಅಥವಾ 100,000 ಜನಸಂಖ್ಯೆಗೆ ಶೇಕಡಾವಾರು ಸಾವುಗಳು ಅಥವಾ ಪ್ರತಿ ವಯೋಮಾನದವರ ಮೇಲೆ COVID ಹೇಗೆ ಪರಿಣಾಮ ಬೀರುತ್ತದೆ ಎಂಬುದನ್ನು ನೋಡಲು ಪ್ರಕರಣ-ಮರಣಗಳನ್ನು ನೋಡುತ್ತಾರೆ.

ಸಂಬಂಧವಿಲ್ಲದ ಪರಸ್ಪರ ಸಂಬಂಧಗಳನ್ನು ತೋರಿಸಿ

ನಿಸ್ಸಂಶಯವಾಗಿ, ಒಂದು ಇದೆ ಬಲವಾದ ಪರಸ್ಪರ ಸಂಬಂಧ ವಿಜ್ಞಾನ, ಬಾಹ್ಯಾಕಾಶ ಮತ್ತು ತಂತ್ರಜ್ಞಾನದ ಮೇಲೆ US ಖರ್ಚು ಮತ್ತು ನೇಣು, ಕತ್ತು ಹಿಸುಕಿ ಮತ್ತು ಉಸಿರುಗಟ್ಟಿಸುವ ಮೂಲಕ ಆತ್ಮಹತ್ಯೆಗಳ ಸಂಖ್ಯೆಯ ನಡುವೆ. ಪರಸ್ಪರ ಸಂಬಂಧವು 99.79% ಆಗಿದೆ, ಇದು ಬಹುತೇಕ ಪರಿಪೂರ್ಣ ಹೊಂದಾಣಿಕೆಯಾಗಿದೆ.  

ಆದಾಗ್ಯೂ, ಇವುಗಳು ಹೇಗಾದರೂ ಸಂಬಂಧಿಸಿವೆ ಅಥವಾ ಒಂದು ಇನ್ನೊಂದನ್ನು ಉಂಟುಮಾಡುತ್ತದೆ ಎಂದು ಯಾರು ಪ್ರಕರಣವನ್ನು ಮಾಡುತ್ತಾರೆ? ಇತರ ಕಡಿಮೆ ವಿಪರೀತ ಉದಾಹರಣೆಗಳಿವೆ, ಆದರೆ ಕಡಿಮೆ ನಕಲಿ ಇಲ್ಲ. ವಿನ್ನಿಂಗ್ ವರ್ಡ್ ಆಫ್ ಸ್ಕ್ರಿಪ್ಸ್ ನ್ಯಾಷನಲ್ ಸ್ಪೆಲ್ಲಿಂಗ್ ಬೀ ಮತ್ತು ವಿಷಯುಕ್ತ ಸ್ಪೈಡರ್‌ಗಳಿಂದ ಕೊಲ್ಲಲ್ಪಟ್ಟ ಜನರ ಸಂಖ್ಯೆಯಲ್ಲಿರುವ ಲೆಟರ್‌ಗಳ ನಡುವೆ ಇದೇ ರೀತಿಯ ಬಲವಾದ ಸಂಬಂಧವಿದೆ. ಕಾಕತಾಳೀಯ? ನೀನು ನಿರ್ಧರಿಸು.

ಕಡಿಮೆ ತಪ್ಪುದಾರಿಗೆಳೆಯುವ ಈ ಡೇಟಾವನ್ನು ಚಾರ್ಟ್ ಮಾಡುವ ಇನ್ನೊಂದು ವಿಧಾನವೆಂದರೆ Y-ಅಕ್ಷಗಳೆರಡರಲ್ಲೂ ಶೂನ್ಯವನ್ನು ಸೇರಿಸುವುದು.

ಡೇಟಾವನ್ನು ತಪ್ಪಾಗಿ ತೋರಿಸಿ

ನಿಂದ ಡೇಟಾವನ್ನು ಕೆಟ್ಟದಾಗಿ ಪ್ರದರ್ಶಿಸುವುದು ಹೇಗೆ, US ಜಾರ್ಜಿಯಾ ರಾಜ್ಯವು ಟಾಪ್ 5 ಕೌಂಟಿಗಳನ್ನು ದೃಢೀಕರಿಸಿದ COVID-19 ಪ್ರಕರಣಗಳ ಹೆಚ್ಚಿನ ಸಂಖ್ಯೆಯ ಮೂಲಕ ಪ್ರಸ್ತುತಪಡಿಸಿದೆ.

ಅಸಲಿ ತೋರುತ್ತಿದೆ, ಸರಿ? ದೃಢಪಡಿಸಿದ COVID-19 ಪ್ರಕರಣಗಳ ಇಳಿಮುಖ ಪ್ರವೃತ್ತಿಯು ಸ್ಪಷ್ಟವಾಗಿ ಇದೆ. ನೀವು X- ಅಕ್ಷವನ್ನು ಓದಬಹುದೇ? X- ಅಕ್ಷವು ಸಮಯವನ್ನು ಪ್ರತಿನಿಧಿಸುತ್ತದೆ. ವಿಶಿಷ್ಟವಾಗಿ, ದಿನಾಂಕಗಳು ಎಡದಿಂದ ಬಲಕ್ಕೆ ಹೆಚ್ಚಾಗುತ್ತವೆ. ಇಲ್ಲಿ, ನಾವು X- ಅಕ್ಷದಲ್ಲಿ ಸ್ವಲ್ಪ ಸಮಯದ ಪ್ರಯಾಣವನ್ನು ನೋಡುತ್ತೇವೆ: 

4/28/2020

4/27/2020

4/29/2020

5/1/2020

4/30/2020

5/4/2020

5/6/2020

5/5/2020

5/2/22020 ...

ನಿರೀಕ್ಷಿಸಿ? ಏನು? X- ಅಕ್ಷವನ್ನು ಕಾಲಾನುಕ್ರಮದಲ್ಲಿ ವಿಂಗಡಿಸಲಾಗಿಲ್ಲ. ಆದ್ದರಿಂದ, ಪ್ರವೃತ್ತಿಯು ಎಷ್ಟು ಚೆನ್ನಾಗಿ ಕಾಣುತ್ತದೆ, ನಾವು ಯಾವುದೇ ತೀರ್ಮಾನಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳಲು ಸಾಧ್ಯವಿಲ್ಲ. ದಿನಾಂಕಗಳನ್ನು ಆದೇಶಿಸಿದರೆ, ಪ್ರಕರಣಗಳ ಸಂಖ್ಯೆಗೆ ಬಾರ್ಗಳು ಯಾವುದೇ ರೀತಿಯ ಪ್ರವೃತ್ತಿಗಿಂತ ಹೆಚ್ಚು ಗರಗಸದ ಮಾದರಿಯನ್ನು ತೋರಿಸುತ್ತದೆ.

ಕ್ಯಾಲೆಂಡರ್ ಮಾಡುವ ರೀತಿಯಲ್ಲಿ ದಿನಾಂಕಗಳನ್ನು ವಿಂಗಡಿಸುವುದು ಇಲ್ಲಿ ಸುಲಭವಾದ ಪರಿಹಾರವಾಗಿದೆ.

ಅಸಾಂಪ್ರದಾಯಿಕವಾಗಿ ಡೇಟಾವನ್ನು ತೋರಿಸಿ

ನಾವೆಲ್ಲರೂ ಕಾರ್ಯನಿರತರಾಗಿದ್ದೇವೆ. ನಮ್ಮ ಪ್ರಪಂಚದಲ್ಲಿ ಸ್ಥಿರವಾಗಿರುವ ಊಹೆಗಳ ಆಧಾರದ ಮೇಲೆ ತ್ವರಿತ ತೀರ್ಪುಗಳನ್ನು ಮಾಡಲು ನಮ್ಮ ಮೆದುಳು ನಮಗೆ ಕಲಿಸಿದೆ. ಉದಾಹರಣೆಗೆ, ನಾನು ನೋಡಿದ ಪ್ರತಿ ಗ್ರಾಫ್ x- ಮತ್ತು y- ಅಕ್ಷಗಳ ಸಭೆಯನ್ನು ಶೂನ್ಯ ಅಥವಾ ಕಡಿಮೆ ಮೌಲ್ಯಗಳಲ್ಲಿ ತೋರಿಸುತ್ತದೆ. ಈ ಚಾರ್ಟ್ ಅನ್ನು ಸಂಕ್ಷಿಪ್ತವಾಗಿ ನೋಡಿದರೆ, ಫ್ಲೋರಿಡಾದ ಪರಿಣಾಮದ ಬಗ್ಗೆ ನೀವು ಯಾವ ತೀರ್ಮಾನಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳಬಹುದು “ನಿಮ್ಮ ನೆಲದ ಕಾನೂನು ಸ್ಟ್ಯಾಂಡ್.”? ನಾನು ಅದನ್ನು ಒಪ್ಪಿಕೊಳ್ಳಲು ನಾಚಿಕೆಪಡುತ್ತೇನೆ, ಆದರೆ ಈ ಗ್ರಾಫ್ ಮೊದಲಿಗೆ ನನ್ನನ್ನು ಮೂರ್ಖರನ್ನಾಗಿಸಿತು. ಗ್ರಾಫಿಕ್ ಮಧ್ಯದಲ್ಲಿರುವ ಪಠ್ಯ ಮತ್ತು ಬಾಣದ ಕಡೆಗೆ ನಿಮ್ಮ ಕಣ್ಣು ಅನುಕೂಲಕರವಾಗಿ ಎಳೆಯಲ್ಪಡುತ್ತದೆ. ಈ ಗ್ರಾಫ್‌ನಲ್ಲಿ ಡೌನ್ ಅಪ್ ಆಗಿದೆ. ಇದು ಸುಳ್ಳಲ್ಲದಿರಬಹುದು - ಡೇಟಾ ಎಲ್ಲವೂ ಸರಿಯಾಗಿದೆ. ಆದರೆ, ಇದು ಮೋಸಗೊಳಿಸುವ ಉದ್ದೇಶ ಎಂದು ನಾನು ಭಾವಿಸಬೇಕಾಗಿದೆ. ನೀವು ಇದನ್ನು ಇನ್ನೂ ನೋಡಿಲ್ಲದಿದ್ದರೆ, y-ಆಕ್ಸಿಸ್‌ನಲ್ಲಿ ಶೂನ್ಯವು ಮೇಲ್ಭಾಗದಲ್ಲಿದೆ. ಆದ್ದರಿಂದ, ಡೇಟಾ ಟ್ರೆಂಡ್ ಕಡಿಮೆಯಾಗುತ್ತಿದ್ದಂತೆ, ಹೆಚ್ಚಿನ ಸಾವುಗಳು ಎಂದರ್ಥ. ಬಂದೂಕುಗಳನ್ನು ಬಳಸಿ ಕೊಲೆಗಳ ಸಂಖ್ಯೆಯನ್ನು ಈ ಚಾರ್ಟ್ ತೋರಿಸುತ್ತದೆ ಹೆಚ್ಚಿದೆ 2005 ರ ನಂತರ, ಹೋಗುತ್ತಿರುವ ಪ್ರವೃತ್ತಿಯಿಂದ ಸೂಚಿಸಲಾಗುತ್ತದೆ ಕೆಳಗೆ.

ಅತಿ ಸರಳೀಕೃತ ಡೇಟಾವನ್ನು ತೋರಿಸಿ

ವಿಶ್ಲೇಷಕರು ಸಿಂಪ್ಸನ್ ವಿರೋಧಾಭಾಸದ ಲಾಭವನ್ನು ಪಡೆದಾಗ ಡೇಟಾದ ಅತಿ-ಸರಳೀಕರಣದ ಒಂದು ಉದಾಹರಣೆಯನ್ನು ಕಾಣಬಹುದು. ಒಟ್ಟುಗೂಡಿದ ಡೇಟಾವು ಉಪವಿಭಾಗಗಳಾಗಿ ಪ್ರತ್ಯೇಕಿಸಲ್ಪಟ್ಟಾಗ ಭಿನ್ನವಾದ ತೀರ್ಮಾನವನ್ನು ಪ್ರದರ್ಶಿಸಲು ಕಂಡುಬಂದಾಗ ಇದು ಸಂಭವಿಸುವ ವಿದ್ಯಮಾನವಾಗಿದೆ. ಉನ್ನತ ಮಟ್ಟದ ಒಟ್ಟುಗೂಡಿದ ಶೇಕಡಾವಾರುಗಳನ್ನು ನೋಡುವಾಗ ಈ ಬಲೆಗೆ ಬೀಳುವುದು ಸುಲಭ. ಕೆಲಸದಲ್ಲಿ ಸಿಂಪ್ಸನ್ ವಿರೋಧಾಭಾಸದ ಸ್ಪಷ್ಟವಾದ ವಿವರಣೆಗಳಲ್ಲಿ ಒಂದಾಗಿದೆ ಬ್ಯಾಟಿಂಗ್ ಸರಾಸರಿ.  

ಡೆರೆಕ್ ಜೆಟರ್ ಅವರು 1995 ಮತ್ತು 1996 ರ ಋತುಗಳಲ್ಲಿ ಡೇವಿಡ್ ಜಸ್ಟೀಸ್‌ಗಿಂತ ಹೆಚ್ಚಿನ ಒಟ್ಟಾರೆ ಬ್ಯಾಟಿಂಗ್ ಸರಾಸರಿಯನ್ನು ಹೊಂದಿರುವುದನ್ನು ನಾವು ಇಲ್ಲಿ ನೋಡುತ್ತೇವೆ. ಆ ಎರಡೂ ವರ್ಷಗಳಲ್ಲಿ ಬ್ಯಾಟಿಂಗ್ ಸರಾಸರಿಯಲ್ಲಿ ಜಸ್ಟೀಸ್ ಅತ್ಯುತ್ತಮವಾಗಿದ್ದನ್ನು ನಾವು ಅರಿತುಕೊಂಡಾಗ ವಿರೋಧಾಭಾಸ ಬರುತ್ತದೆ. ನೀವು ಎಚ್ಚರಿಕೆಯಿಂದ ನೋಡಿದರೆ, ಜೆಟರ್ 4 ರಲ್ಲಿ .1996 ಕಡಿಮೆ ಸರಾಸರಿಯಲ್ಲಿ 007 ರಲ್ಲಿ ಸರಿಸುಮಾರು 1996x ಹೆಚ್ಚು ಅಟ್-ಬ್ಯಾಟ್‌ಗಳನ್ನು (ಛೇದ) ಹೊಂದಿದ್ದರು ಎಂದು ನೀವು ಅರಿತುಕೊಂಡಾಗ ಅದು ಅರ್ಥಪೂರ್ಣವಾಗಿದೆ. 10 ರಲ್ಲಿ 003 ಹೆಚ್ಚಿನ ಸರಾಸರಿ.

ಪ್ರಸ್ತುತಿಯು ನೇರವಾಗಿ ಕಾಣುತ್ತದೆ, ಆದರೆ ಸಿಂಪ್ಸನ್‌ರ ವಿರೋಧಾಭಾಸವು ಬುದ್ಧಿಪೂರ್ವಕವಾಗಿ ಅಥವಾ ತಿಳಿಯದೆ ತಪ್ಪು ತೀರ್ಮಾನಗಳಿಗೆ ಕಾರಣವಾಗಿದೆ. ಇತ್ತೀಚೆಗೆ, ಲಸಿಕೆಗಳು ಮತ್ತು COVID ಮರಣಕ್ಕೆ ಸಂಬಂಧಿಸಿದ ಸುದ್ದಿ ಮತ್ತು ಸಾಮಾಜಿಕ ಮಾಧ್ಯಮಗಳಲ್ಲಿ ಸಿಂಪ್ಸನ್ ವಿರೋಧಾಭಾಸದ ಉದಾಹರಣೆಗಳಿವೆ. ಒಂದು ಚಾರ್ಟ್ 10-59 ವರ್ಷ ವಯಸ್ಸಿನ ಜನರಿಗೆ ವ್ಯಾಕ್ಸಿನೇಟೆಡ್ ಮತ್ತು ಲಸಿಕೆ ಹಾಕದ ನಡುವಿನ ಸಾವಿನ ದರಗಳನ್ನು ಹೋಲಿಸುವ ಲೈನ್ ಗ್ರಾಫ್ ಅನ್ನು ತೋರಿಸುತ್ತದೆ. ಲಸಿಕೆ ಹಾಕದಿರುವವರು ಸತತವಾಗಿ ಕಡಿಮೆ ಮರಣ ಪ್ರಮಾಣವನ್ನು ಹೊಂದಿರುತ್ತಾರೆ ಎಂದು ಚಾರ್ಟ್ ತೋರಿಸುತ್ತದೆ. ಇಲ್ಲಿ ಏನು ನಡೆಯುತ್ತಿದೆ?  

ಬ್ಯಾಟಿಂಗ್ ಸರಾಸರಿಯೊಂದಿಗೆ ನಾವು ನೋಡುವ ಸಮಸ್ಯೆಯಂತೆಯೇ ಇರುತ್ತದೆ. ಈ ಸಂದರ್ಭದಲ್ಲಿ ಛೇದವು ಪ್ರತಿ ವಯೋಮಾನದ ವ್ಯಕ್ತಿಗಳ ಸಂಖ್ಯೆಯಾಗಿದೆ. ಗ್ರಾಫ್ ವಿಭಿನ್ನ ಫಲಿತಾಂಶಗಳನ್ನು ಹೊಂದಿರುವ ಗುಂಪುಗಳನ್ನು ಸಂಯೋಜಿಸುತ್ತದೆ. ನಾವು ಹಿರಿಯ ವಯಸ್ಸಿನ ಗುಂಪು, 50-59 ಅನ್ನು ಪ್ರತ್ಯೇಕವಾಗಿ ನೋಡಿದರೆ, ಲಸಿಕೆ ಹಾಕಿದ ದರವು ಉತ್ತಮವಾಗಿದೆ ಎಂದು ನಾವು ನೋಡುತ್ತೇವೆ. ಅಂತೆಯೇ, ನಾವು 10-49 ಅನ್ನು ನೋಡಿದರೆ, ಲಸಿಕೆ ಹಾಕಿದ ದರವು ಉತ್ತಮವಾಗಿರುತ್ತದೆ ಎಂದು ನಾವು ನೋಡುತ್ತೇವೆ. ವಿರೋಧಾಭಾಸವಾಗಿ, ಸಂಯೋಜಿತ ಗುಂಪನ್ನು ನೋಡುವಾಗ, ಲಸಿಕೆ ಹಾಕದಿರುವುದು ಕೆಟ್ಟ ಫಲಿತಾಂಶವನ್ನು ಹೊಂದಿದೆ. ಈ ರೀತಿಯಾಗಿ, ಡೇಟಾವನ್ನು ಬಳಸಿಕೊಂಡು ವಿರುದ್ಧವಾದ ವಾದಗಳಿಗೆ ನೀವು ಪ್ರಕರಣವನ್ನು ಮಾಡಲು ಸಾಧ್ಯವಾಗುತ್ತದೆ.

ಡೇಟಾ ಪಕ್ಷಪಾತವಾಗಿದೆ

ಡೇಟಾವನ್ನು ಯಾವಾಗಲೂ ನಂಬಲಾಗುವುದಿಲ್ಲ. ವೈಜ್ಞಾನಿಕ ಸಮುದಾಯದಲ್ಲಿಯೂ ಸಹ, ಸಮೀಕ್ಷೆಯಲ್ಲಿ ಮೂರನೇ ಒಂದು ಭಾಗದಷ್ಟು ಸಂಶೋಧಕರು ಒಪ್ಪಿಕೊಂಡಿದ್ದಾರೆ "ಪ್ರಶ್ನಾರ್ಹ ಸಂಶೋಧನಾ ಅಭ್ಯಾಸಗಳು."  ಮತ್ತೊಂದು ಸಂಶೋಧನಾ ವಂಚನೆ ಪತ್ತೆದಾರ ಹೇಳುತ್ತಾರೆ, "ಡೇಟಾದಲ್ಲಿ ಹೆಚ್ಚಿನ ವಂಚನೆ ಇದೆ - ಕೋಷ್ಟಕಗಳು, ಲೈನ್ ಗ್ರಾಫ್‌ಗಳು, ಅನುಕ್ರಮ ಡೇಟಾ [- ನಾವು ನಿಜವಾಗಿ ಕಂಡುಹಿಡಿಯುವುದಕ್ಕಿಂತ]. ತಮ್ಮ ಅಡಿಗೆ ಮೇಜಿನ ಬಳಿ ಕುಳಿತುಕೊಳ್ಳುವ ಯಾರಾದರೂ ಸ್ಪ್ರೆಡ್‌ಶೀಟ್‌ನಲ್ಲಿ ಕೆಲವು ಸಂಖ್ಯೆಗಳನ್ನು ಹಾಕಬಹುದು ಮತ್ತು ಮನವೊಪ್ಪಿಸುವಂತೆ ಕಾಣುವ ಲೈನ್ ಗ್ರಾಫ್ ಅನ್ನು ಮಾಡಬಹುದು.

ಇದು ಮೊದಲಿಗೆ ಉದಾಹರಣೆ ಯಾರೋ ಹಾಗೆ ಮಾಡಿದಂತೆ ತೋರುತ್ತಿದೆ. ಇದು ವಂಚನೆ ಎಂದು ನಾನು ಹೇಳುತ್ತಿಲ್ಲ, ಆದರೆ ಸಮೀಕ್ಷೆಯಂತೆ, ಇದು ತಿಳುವಳಿಕೆಯುಳ್ಳ ನಿರ್ಧಾರಕ್ಕೆ ಕೊಡುಗೆ ನೀಡುವ ಯಾವುದೇ ಡೇಟಾವನ್ನು ರಚಿಸುವುದಿಲ್ಲ. ಸಮೀಕ್ಷೆಯು ಪ್ರತಿಕ್ರಿಯಿಸಿದವರಿಗೆ ಗ್ಯಾಸ್ ಸ್ಟೇಷನ್ ಕಾಫಿ ಅಥವಾ ಇತರ ಸಂಬಂಧಿತ ಪ್ರಸ್ತುತ ಘಟನೆಯ ಕುರಿತು ಅವರ ಅಭಿಪ್ರಾಯವನ್ನು ಕೇಳಿದಂತೆ ತೋರುತ್ತಿದೆ. 

  1. ಸುಪರ್ಬ್ 
  2. ಗ್ರೇಟ್
  3. ತುಂಬಾ ಒಳ್ಳೆಯದು 

ತಪ್ಪಿತಸ್ಥ ವ್ಯಕ್ತಿಯ ಉಲ್ಲೇಖಗಳನ್ನು ತೆಗೆದುಹಾಕಲು ನಾನು Twitter ಪೋಸ್ಟ್ ಅನ್ನು ಕ್ರಾಪ್ ಮಾಡಿದ್ದೇನೆ, ಆದರೆ ಇದು ಸಮೀಕ್ಷೆಯ ಅಂತಿಮ ಫಲಿತಾಂಶಗಳ ನಿಜವಾದ ಸಂಪೂರ್ಣ ಚಾರ್ಟ್ ಆಗಿದೆ. ಈ ರೀತಿಯ ಸಮೀಕ್ಷೆಗಳು ಸಾಮಾನ್ಯವಲ್ಲ. ನಿಸ್ಸಂಶಯವಾಗಿ, ಪ್ರತಿಕ್ರಿಯೆಗಳಿಂದ ಉಂಟಾಗುವ ಡೇಟಾದಿಂದ ರಚಿಸಲಾದ ಯಾವುದೇ ಚಾರ್ಟ್ ಪ್ರಶ್ನೆಯಲ್ಲಿರುವ ಕಾಫಿಯನ್ನು ತಪ್ಪಿಸಿಕೊಳ್ಳಬಾರದು ಎಂದು ತೋರಿಸುತ್ತದೆ.  

ಸಮಸ್ಯೆಯೆಂದರೆ ನಿಮಗೆ ಈ ಸಮೀಕ್ಷೆಯನ್ನು ನೀಡಿದ್ದರೆ ಮತ್ತು ನಿಮ್ಮ ಆಲೋಚನೆಗೆ ಸರಿಹೊಂದುವ ಪ್ರತಿಕ್ರಿಯೆಯನ್ನು ಕಂಡುಹಿಡಿಯದಿದ್ದರೆ, ನೀವು ಸಮೀಕ್ಷೆಯನ್ನು ಬಿಟ್ಟುಬಿಡುತ್ತೀರಿ. ವಿಶ್ವಾಸಾರ್ಹವಲ್ಲದ ಡೇಟಾವನ್ನು ಹೇಗೆ ರಚಿಸಬಹುದು ಎಂಬುದಕ್ಕೆ ಇದು ಒಂದು ಅತ್ಯುತ್ತಮ ಉದಾಹರಣೆಯಾಗಿರಬಹುದು. ಕಳಪೆ ಸಮೀಕ್ಷೆ ವಿನ್ಯಾಸ, ಆದಾಗ್ಯೂ, ಕಡಿಮೆ ಪ್ರತಿಕ್ರಿಯೆಗಳಿಗೆ ಕಾರಣವಾಗಬಹುದು ಮತ್ತು ಪ್ರತಿಕ್ರಿಯಿಸುವವರು ಕೇವಲ ಒಂದು ಅಭಿಪ್ರಾಯವನ್ನು ಹೊಂದಿರುತ್ತಾರೆ, ಇದು ಕೇವಲ ಪದವಿಯ ವಿಷಯವಾಗಿದೆ. ಡೇಟಾ ಪಕ್ಷಪಾತವಾಗಿದೆ.

ಡೇಟಾ ಪಕ್ಷಪಾತದ ಈ ಎರಡನೇ ಉದಾಹರಣೆಯು ಫೈಲ್‌ಗಳಿಂದ ಬಂದಿದೆಕೆಟ್ಟ COVID 19 ತಪ್ಪುದಾರಿಗೆಳೆಯುವ ಗ್ರಾಫ್‌ಗಳು. " 

ಮತ್ತೊಮ್ಮೆ, ಇದು ಸೂಕ್ಷ್ಮ ಮತ್ತು ಸಂಪೂರ್ಣವಾಗಿ ಸ್ಪಷ್ಟವಾಗಿಲ್ಲ. ಬಾರ್ ಗ್ರಾಫ್ ಫ್ಲೋರಿಡಾದ ಕೌಂಟಿಗೆ ಕಾಲಾನಂತರದಲ್ಲಿ ಧನಾತ್ಮಕ COVID-19 ಪ್ರಕರಣಗಳ ಶೇಕಡಾವಾರು ಪ್ರಮಾಣದಲ್ಲಿ ಮೃದುವಾದ - ಬಹುತೇಕ ತುಂಬಾ ಮೃದುವಾದ - ಕುಸಿತವನ್ನು ತೋರಿಸುತ್ತದೆ. ಪ್ರಕರಣಗಳು ಕಡಿಮೆಯಾಗುತ್ತಿವೆ ಎಂದು ನೀವು ಸುಲಭವಾಗಿ ತೀರ್ಮಾನಿಸಬಹುದು. ಅದು ಅದ್ಭುತವಾಗಿದೆ, ದೃಶ್ಯೀಕರಣವು ಡೇಟಾವನ್ನು ನಿಖರವಾಗಿ ಪ್ರತಿನಿಧಿಸುತ್ತದೆ. ಸಮಸ್ಯೆ ಡೇಟಾದಲ್ಲಿದೆ. ಆದ್ದರಿಂದ, ಇದು ಹೆಚ್ಚು ಕಪಟ ಪಕ್ಷಪಾತವಾಗಿದೆ ಏಕೆಂದರೆ ನೀವು ಅದನ್ನು ನೋಡಲಾಗುವುದಿಲ್ಲ. ಇದು ಡೇಟಾದಲ್ಲಿ ಬೇಯಿಸಲಾಗುತ್ತದೆ. ನೀವು ಕೇಳಬೇಕಾದ ಪ್ರಶ್ನೆಗಳು, ಸೇರಿವೆ, ಯಾರನ್ನು ಪರೀಕ್ಷಿಸಲಾಗುತ್ತಿದೆ? ಬೇರೆ ರೀತಿಯಲ್ಲಿ ಹೇಳುವುದಾದರೆ, ಛೇದ ಎಂದರೇನು, ಅಥವಾ ನಾವು ಶೇಕಡಾವಾರು ಪ್ರಮಾಣವನ್ನು ನೋಡುತ್ತಿರುವ ಜನಸಂಖ್ಯೆ. ಊಹೆಯೆಂದರೆ ಅದು ಸಂಪೂರ್ಣ ಜನಸಂಖ್ಯೆ ಅಥವಾ ಕನಿಷ್ಠ ಪ್ರತಿನಿಧಿ ಮಾದರಿ.

ಆದಾಗ್ಯೂ, ಈ ಅವಧಿಯಲ್ಲಿ, ಈ ಕೌಂಟಿಯಲ್ಲಿ, ಸೀಮಿತ ಸಂಖ್ಯೆಯ ಜನರಿಗೆ ಮಾತ್ರ ಪರೀಕ್ಷೆಗಳನ್ನು ನೀಡಲಾಯಿತು. ಅವರು COVID-ತರಹದ ರೋಗಲಕ್ಷಣಗಳನ್ನು ಹೊಂದಿರಬೇಕು ಅಥವಾ ಹಾಟ್ ಸ್ಪಾಟ್‌ಗಳ ಪಟ್ಟಿಯಲ್ಲಿರುವ ದೇಶಕ್ಕೆ ಇತ್ತೀಚೆಗೆ ಪ್ರಯಾಣಿಸಿದ್ದರು. ಹೆಚ್ಚುವರಿಯಾಗಿ ಫಲಿತಾಂಶಗಳನ್ನು ಗೊಂದಲಗೊಳಿಸುವುದು ಪ್ರತಿ ಸಕಾರಾತ್ಮಕ ಪರೀಕ್ಷೆಯನ್ನು ಎಣಿಸಲಾಗಿದೆ ಮತ್ತು ಪ್ರತಿ ನಕಾರಾತ್ಮಕ ಪರೀಕ್ಷೆಯನ್ನು ಎಣಿಸಲಾಗಿದೆ. ವಿಶಿಷ್ಟವಾಗಿ, ಒಬ್ಬ ವ್ಯಕ್ತಿಯು ಧನಾತ್ಮಕ ಪರೀಕ್ಷೆ ಮಾಡಿದಾಗ, ವೈರಸ್ ತನ್ನ ಕೋರ್ಸ್ ಅನ್ನು ಚಲಾಯಿಸಿದಾಗ ಅವರು ಮತ್ತೊಮ್ಮೆ ಪರೀಕ್ಷಿಸುತ್ತಾರೆ ಮತ್ತು ನಕಾರಾತ್ಮಕತೆಯನ್ನು ಪರೀಕ್ಷಿಸುತ್ತಾರೆ. ಆದ್ದರಿಂದ, ಒಂದು ಅರ್ಥದಲ್ಲಿ, ಪ್ರತಿ ಸಕಾರಾತ್ಮಕ ಪ್ರಕರಣಕ್ಕೆ, ನಕಾರಾತ್ಮಕ ಪರೀಕ್ಷಾ ಪ್ರಕರಣವು ಅದನ್ನು ರದ್ದುಗೊಳಿಸುತ್ತದೆ. ಬಹುಪಾಲು ಪರೀಕ್ಷೆಗಳು ನಕಾರಾತ್ಮಕವಾಗಿವೆ ಮತ್ತು ಪ್ರತಿಯೊಬ್ಬ ವ್ಯಕ್ತಿಯ ನಕಾರಾತ್ಮಕ ಪರೀಕ್ಷೆಗಳನ್ನು ಎಣಿಸಲಾಗಿದೆ. ಡೇಟಾ ಹೇಗೆ ಪಕ್ಷಪಾತವಾಗಿದೆ ಮತ್ತು ನಿರ್ಧಾರಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳಲು ವಿಶೇಷವಾಗಿ ಉಪಯುಕ್ತವಲ್ಲ ಎಂಬುದನ್ನು ನೀವು ನೋಡಬಹುದು. 

AI ಇನ್‌ಪುಟ್ ಮತ್ತು ತರಬೇತಿಯು ಪಕ್ಷಪಾತಿಯಾಗಿದೆ

AI ಪಕ್ಷಪಾತದ ಫಲಿತಾಂಶಗಳಿಗೆ ಕಾರಣವಾಗಲು ಕನಿಷ್ಠ ಎರಡು ಮಾರ್ಗಗಳಿವೆ: ಪಕ್ಷಪಾತದ ಡೇಟಾದಿಂದ ಪ್ರಾರಂಭಿಸಿ, ಅಥವಾ ಮಾನ್ಯವಾದ ಡೇಟಾವನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಲು ಪಕ್ಷಪಾತದ ಅಲ್ಗಾರಿದಮ್‌ಗಳನ್ನು ಬಳಸುವುದು.  

ಪಕ್ಷಪಾತದ ಇನ್ಪುಟ್

ಸಂಖ್ಯೆಗಳನ್ನು ಕ್ರಂಚ್ ಮಾಡಲು, ಅದರ ಅಲ್ಗಾರಿದಮ್‌ಗಳನ್ನು ಅನ್ವಯಿಸಲು ಮತ್ತು ಡೇಟಾದ ವಿಶ್ವಾಸಾರ್ಹ ವಿಶ್ಲೇಷಣೆಯನ್ನು ಹೊರಹಾಕಲು AI ಅನ್ನು ನಂಬಬಹುದು ಎಂಬ ಅನಿಸಿಕೆ ನಮ್ಮಲ್ಲಿ ಅನೇಕರಿಗೆ ಇದೆ. ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆಯು ತರಬೇತಿ ಪಡೆದಷ್ಟೇ ಸ್ಮಾರ್ಟ್ ಆಗಿರಬಹುದು. ತರಬೇತಿ ಪಡೆದ ಡೇಟಾವು ಅಪೂರ್ಣವಾಗಿದ್ದರೆ, ಫಲಿತಾಂಶಗಳು ಅಥವಾ ತೀರ್ಮಾನಗಳನ್ನು ನಂಬಲು ಸಾಧ್ಯವಾಗುವುದಿಲ್ಲ. ಸಮೀಕ್ಷೆ ಪಕ್ಷಪಾತದ ಮೇಲಿನ ಪ್ರಕರಣದಂತೆಯೇ, ಡೇಟಾ ಇರಬಹುದಾದ ಹಲವಾರು ಮಾರ್ಗಗಳಿವೆ ಪಕ್ಷಪಾತ ಯಂತ್ರ ಕಲಿಕೆಯಲ್ಲಿ:.  

  • ಮಾದರಿ ಪಕ್ಷಪಾತ - ತರಬೇತಿ ಡೇಟಾಸೆಟ್ ಇಡೀ ಜನಸಂಖ್ಯೆಯ ಪ್ರತಿನಿಧಿಯಾಗಿಲ್ಲ.
  • ಹೊರಗಿಡುವ ಪಕ್ಷಪಾತ - ಕೆಲವೊಮ್ಮೆ ಹೊರಗಿರುವಂತೆ ತೋರುವವುಗಳು ನಿಜವಾಗಿ ಮಾನ್ಯವಾಗಿರುತ್ತವೆ ಅಥವಾ, ಯಾವುದನ್ನು ಸೇರಿಸಬೇಕು (ಜಿಪ್ ಕೋಡ್‌ಗಳು, ದಿನಾಂಕಗಳು, ಇತ್ಯಾದಿ) ಮೇಲೆ ನಾವು ರೇಖೆಯನ್ನು ಎಳೆಯುತ್ತೇವೆ.
  • ಮಾಪನ ಪಕ್ಷಪಾತ - ಕನ್ವೆನ್ಶನ್ ಯಾವಾಗಲೂ ಚಂದ್ರಾಕೃತಿಯ ಮಧ್ಯ ಮತ್ತು ಕೆಳಭಾಗದಿಂದ ಅಳೆಯುವುದು, ಉದಾಹರಣೆಗೆ, ವಾಲ್ಯೂಮೆಟ್ರಿಕ್ ಫ್ಲಾಸ್ಕ್‌ಗಳು ಅಥವಾ ಪರೀಕ್ಷಾ ಟ್ಯೂಬ್‌ಗಳಲ್ಲಿ ದ್ರವವನ್ನು ಅಳೆಯುವಾಗ (ಪಾದರಸವನ್ನು ಹೊರತುಪಡಿಸಿ.)
  • ಪಕ್ಷಪಾತವನ್ನು ನೆನಪಿಸಿಕೊಳ್ಳಿ - ಸಂಶೋಧನೆಯು ಭಾಗವಹಿಸುವವರ ಸ್ಮರಣೆಯನ್ನು ಅವಲಂಬಿಸಿದ್ದಾಗ.
  • ವೀಕ್ಷಕ ಪಕ್ಷಪಾತ - ವಿಜ್ಞಾನಿಗಳು, ಎಲ್ಲಾ ಮಾನವರಂತೆ, ಅವರು ಏನನ್ನು ನೋಡಬೇಕೆಂದು ನಿರೀಕ್ಷಿಸುತ್ತಾರೆ ಎಂಬುದನ್ನು ನೋಡಲು ಹೆಚ್ಚು ಒಲವು ತೋರುತ್ತಾರೆ.
  • ಲೈಂಗಿಕತೆ ಮತ್ತು ಜನಾಂಗೀಯ ಪಕ್ಷಪಾತ - ಲೈಂಗಿಕತೆ ಅಥವಾ ಜನಾಂಗವು ಹೆಚ್ಚು ಅಥವಾ ಕಡಿಮೆ ಪ್ರತಿನಿಧಿಸಬಹುದು.  
  • ಅಸೋಸಿಯೇಷನ್ ​​ಪಕ್ಷಪಾತ - ಡೇಟಾ ಸ್ಟೀರಿಯೊಟೈಪ್‌ಗಳನ್ನು ಬಲಪಡಿಸುತ್ತದೆ

AI ವಿಶ್ವಾಸಾರ್ಹ ಫಲಿತಾಂಶಗಳನ್ನು ನೀಡಲು, ಅದರ ತರಬೇತಿ ಡೇಟಾವು ನೈಜ ಪ್ರಪಂಚವನ್ನು ಪ್ರತಿನಿಧಿಸುವ ಅಗತ್ಯವಿದೆ. ನಾವು ಹಿಂದಿನ ಬ್ಲಾಗ್ ಲೇಖನದಲ್ಲಿ ಚರ್ಚಿಸಿದಂತೆ, ಡೇಟಾದ ತಯಾರಿಕೆಯು ನಿರ್ಣಾಯಕವಾಗಿದೆ ಮತ್ತು ಯಾವುದೇ ಇತರ ಡೇಟಾ ಯೋಜನೆಯಂತೆ. ವಿಶ್ವಾಸಾರ್ಹವಲ್ಲದ ಡೇಟಾವು ಯಂತ್ರ ಕಲಿಕೆ ವ್ಯವಸ್ಥೆಗಳಿಗೆ ತಪ್ಪು ಪಾಠವನ್ನು ಕಲಿಸುತ್ತದೆ ಮತ್ತು ತಪ್ಪು ತೀರ್ಮಾನಕ್ಕೆ ಕಾರಣವಾಗುತ್ತದೆ. ಅದು ಹೇಳಿದೆ, “ಎಲ್ಲಾ ಡೇಟಾ ಪಕ್ಷಪಾತವಾಗಿದೆ. ಇದು ಮತಿವಿಕಲ್ಪವಲ್ಲ. ಇದು ಸತ್ಯ." – ಡಾ. ಸಂಜೀವ್ ಎಂ. ನಾರಾಯಣ್, ಸ್ಟ್ಯಾನ್‌ಫೋರ್ಡ್ ಯೂನಿವರ್ಸಿಟಿ ಸ್ಕೂಲ್ ಆಫ್ ಮೆಡಿಸಿನ್.

ತರಬೇತಿಗಾಗಿ ಪಕ್ಷಪಾತದ ಡೇಟಾವನ್ನು ಬಳಸುವುದು ಹಲವಾರು ಗಮನಾರ್ಹ AI ವೈಫಲ್ಯಗಳಿಗೆ ಕಾರಣವಾಗಿದೆ. (ಉದಾಹರಣೆಗಳು ಇಲ್ಲಿ ಮತ್ತು ಇಲ್ಲಿ, ಸಂಶೋಧನೆ ಇಲ್ಲಿ..)

ಪಕ್ಷಪಾತ ಕ್ರಮಾವಳಿಗಳು

ಅಲ್ಗಾರಿದಮ್ ಎನ್ನುವುದು ಇನ್‌ಪುಟ್ ಅನ್ನು ಸ್ವೀಕರಿಸುವ ಮತ್ತು ವ್ಯವಹಾರದ ಸಮಸ್ಯೆಗೆ ಉತ್ತರಿಸಲು ಔಟ್‌ಪುಟ್ ಅನ್ನು ರಚಿಸುವ ನಿಯಮಗಳ ಗುಂಪಾಗಿದೆ. ಅವರು ಸಾಮಾನ್ಯವಾಗಿ ಉತ್ತಮವಾಗಿ ವ್ಯಾಖ್ಯಾನಿಸಲಾದ ನಿರ್ಧಾರ ಮರಗಳು. ಕ್ರಮಾವಳಿಗಳು ಕಪ್ಪು ಪೆಟ್ಟಿಗೆಗಳಂತೆ ಭಾಸವಾಗುತ್ತವೆ. ಅವರು ಹೇಗೆ ಕೆಲಸ ಮಾಡುತ್ತಾರೆ ಎಂದು ಯಾರಿಗೂ ಖಚಿತವಾಗಿ ತಿಳಿದಿಲ್ಲ, ಅದು ಸಹ ಅಲ್ಲ ಅವುಗಳನ್ನು ಬಳಸುವ ಕಂಪನಿಗಳು. ಓಹ್, ಮತ್ತು ಅವರು ಸಾಮಾನ್ಯವಾಗಿ ಸ್ವಾಮ್ಯದ ಆರ್. ಅವರ ನಿಗೂಢ ಮತ್ತು ಸಂಕೀರ್ಣ ಸ್ವಭಾವವು ಪಕ್ಷಪಾತದ ಅಲ್ಗಾರಿದಮ್‌ಗಳು ತುಂಬಾ ಕಪಟವಾಗಲು ಕಾರಣಗಳಲ್ಲಿ ಒಂದಾಗಿದೆ. . 

ಓಟವನ್ನು ಪರಿಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳುವ ಔಷಧ, ಮಾನವ ಸಂಪನ್ಮೂಲ ಅಥವಾ ಹಣಕಾಸುದಲ್ಲಿನ AI ಅಲ್ಗಾರಿದಮ್‌ಗಳನ್ನು ಪರಿಗಣಿಸಿ. ಜನಾಂಗವು ಒಂದು ಅಂಶವಾಗಿದ್ದರೆ, ಅಲ್ಗಾರಿದಮ್ ಜನಾಂಗೀಯವಾಗಿ ಕುರುಡಾಗಿರಲು ಸಾಧ್ಯವಿಲ್ಲ. ಇದು ಸೈದ್ಧಾಂತಿಕವಲ್ಲ. AI ಅನ್ನು ಬಳಸಿಕೊಂಡು ನೈಜ ಜಗತ್ತಿನಲ್ಲಿ ಈ ರೀತಿಯ ಸಮಸ್ಯೆಗಳನ್ನು ಕಂಡುಹಿಡಿಯಲಾಗಿದೆ ನೇಮಕಾತಿ, ಸವಾರಿ-ಹಂಚಿಕೆ, ಸಾಲದ ಅರ್ಜಿಮರಳು ಮೂತ್ರಪಿಂಡ ಕಸಿ

ನಿಮ್ಮ ಡೇಟಾ ಅಥವಾ ಅಲ್ಗಾರಿದಮ್‌ಗಳು ಕೆಟ್ಟದಾಗಿದ್ದರೆ, ನಿಷ್ಪ್ರಯೋಜಕಕ್ಕಿಂತ ಕೆಟ್ಟದಾಗಿದ್ದರೆ, ಅವು ಅಪಾಯಕಾರಿಯಾಗಬಹುದು ಎಂಬುದು ಬಾಟಮ್ ಲೈನ್. ಅಂತಹ ಒಂದು ವಿಷಯವಿದೆ "ಅಲ್ಗಾರಿದಮಿಕ್ ಆಡಿಟ್." ನ್ಯಾಯೋಚಿತತೆ, ಪಕ್ಷಪಾತ ಮತ್ತು ತಾರತಮ್ಯಕ್ಕೆ ಸಂಬಂಧಿಸಿದ ಅಲ್ಗಾರಿದಮ್‌ಗೆ ಸಂಬಂಧಿಸಿದ ಸಂಭಾವ್ಯ ಅಪಾಯಗಳನ್ನು ಗುರುತಿಸಲು ಸಂಸ್ಥೆಗಳಿಗೆ ಸಹಾಯ ಮಾಡುವುದು ಗುರಿಯಾಗಿದೆ. ಬೇರೆಡೆ, ಫೇಸ್ಬುಕ್ AI ನಲ್ಲಿ ಪಕ್ಷಪಾತದ ವಿರುದ್ಧ ಹೋರಾಡಲು AI ಅನ್ನು ಬಳಸುತ್ತಿದೆ.

ಜನರು ಪಕ್ಷಪಾತಿಗಳಾಗಿದ್ದಾರೆ

ನಾವು ಸಮೀಕರಣದ ಎರಡೂ ಬದಿಗಳಲ್ಲಿ ಜನರನ್ನು ಹೊಂದಿದ್ದೇವೆ. ಜನರು ವಿಶ್ಲೇಷಣೆಯನ್ನು ಸಿದ್ಧಪಡಿಸುತ್ತಿದ್ದಾರೆ ಮತ್ತು ಜನರು ಮಾಹಿತಿಯನ್ನು ಸ್ವೀಕರಿಸುತ್ತಿದ್ದಾರೆ. ಸಂಶೋಧಕರಿದ್ದಾರೆ ಮತ್ತು ಓದುಗರಿದ್ದಾರೆ. ಯಾವುದೇ ಸಂವಹನದಲ್ಲಿ, ಪ್ರಸರಣ ಅಥವಾ ಸ್ವಾಗತದಲ್ಲಿ ಸಮಸ್ಯೆಗಳಿರಬಹುದು.

ಉದಾಹರಣೆಗೆ, ಹವಾಮಾನವನ್ನು ತೆಗೆದುಕೊಳ್ಳಿ. "ಮಳೆ ಸಾಧ್ಯತೆ" ಎಂದರೆ ಏನು? ಮೊದಲನೆಯದಾಗಿ, ಹವಾಮಾನಶಾಸ್ತ್ರಜ್ಞರು ಮಳೆ ಬೀಳುವ ಸಾಧ್ಯತೆಯಿದೆ ಎಂದು ಹೇಳಿದಾಗ ಅರ್ಥವೇನು? US ಸರ್ಕಾರದ ಪ್ರಕಾರ ರಾಷ್ಟ್ರೀಯ ಹವಾಮಾನ ಸೇವೆ, ಮಳೆಯ ಅವಕಾಶ, ಅಥವಾ ಅವರು ಮಳೆಯ ಸಂಭವನೀಯತೆ (PoP) ಎಂದು ಕರೆಯುವ ಹವಾಮಾನ ಮುನ್ಸೂಚನೆಯಲ್ಲಿ ಕಡಿಮೆ ಅರ್ಥವಾಗುವ ಅಂಶಗಳಲ್ಲಿ ಒಂದಾಗಿದೆ. ಇದು ಪ್ರಮಾಣಿತ ವ್ಯಾಖ್ಯಾನವನ್ನು ಹೊಂದಿದೆ: "ಮಳೆಯಾಗುವ ಸಂಭವನೀಯತೆಯು ಕೇವಲ 0.01" ಇಂಚು [sic] ಯ [sic] ಹೆಚ್ಚಿನ ಮಳೆಯ ಸಂಖ್ಯಾಶಾಸ್ತ್ರೀಯ ಸಂಭವನೀಯತೆಯಾಗಿದೆ, ನಿರ್ದಿಷ್ಟಪಡಿಸಿದ ಸಮಯದಲ್ಲಿ ನಿರ್ದಿಷ್ಟಪಡಿಸಿದ ಮುನ್ಸೂಚನೆ ಪ್ರದೇಶದಲ್ಲಿ ನಿರ್ದಿಷ್ಟ ಪ್ರದೇಶದಲ್ಲಿ." "ನೀಡಿರುವ ಪ್ರದೇಶ" ಎಂಬುದು ಮುನ್ಸೂಚನೆಯ ಪ್ರದೇಶವಾಗಿದೆ, ಅಥವಾ ಬಿroadಎರಕಹೊಯ್ದ ಪ್ರದೇಶ. ಅಂದರೆ ಮಳೆಯ ಅಧಿಕೃತ ಸಂಭವನೀಯತೆಯು ಆ ಪ್ರದೇಶದಲ್ಲಿ ಎಲ್ಲೋ ಮಳೆಯಾಗುತ್ತದೆ ಎಂಬ ವಿಶ್ವಾಸ ಮತ್ತು ಆರ್ದ್ರವಾಗುವ ಪ್ರದೇಶದ ಶೇಕಡಾವನ್ನು ಅವಲಂಬಿಸಿರುತ್ತದೆ. ಬೇರೆ ರೀತಿಯಲ್ಲಿ ಹೇಳುವುದಾದರೆ, ಮುನ್ಸೂಚನೆಯ ಪ್ರದೇಶದಲ್ಲಿ (ಆತ್ಮವಿಶ್ವಾಸ = 100%) ಮಳೆಯಾಗಲಿದೆ ಎಂದು ಹವಾಮಾನಶಾಸ್ತ್ರಜ್ಞರು ವಿಶ್ವಾಸ ಹೊಂದಿದ್ದರೆ, ನಂತರ PoP ಮಳೆಯನ್ನು ಪಡೆಯುವ ಪ್ರದೇಶದ ಭಾಗವನ್ನು ಪ್ರತಿನಿಧಿಸುತ್ತದೆ.  

ಪ್ಯಾರಿಸ್ ಸ್ಟ್ರೀಟ್; ಮಳೆಗಾಲದ ದಿನ,ಗುಸ್ಟಾವ್ ಕೈಲ್ಲೆಬೊಟ್ಟೆ (1848-1894) ಚಿಕಾಗೋ ಆರ್ಟ್ ಇನ್ಸ್ಟಿಟ್ಯೂಟ್ ಸಾರ್ವಜನಿಕ ಡೊಮೇನ್

ಮಳೆಯ ಸಾಧ್ಯತೆಯು ವಿಶ್ವಾಸ ಮತ್ತು ಪ್ರದೇಶ ಎರಡನ್ನೂ ಅವಲಂಬಿಸಿರುತ್ತದೆ. ನನಗೆ ಅದು ಗೊತ್ತಿರಲಿಲ್ಲ. ಇತರ ಜನರಿಗೆ ಇದು ತಿಳಿದಿಲ್ಲ ಎಂದು ನಾನು ಭಾವಿಸುತ್ತೇನೆ. ಜನಸಂಖ್ಯೆಯ ಸುಮಾರು 75% ರಷ್ಟು ಜನರು PoP ಅನ್ನು ಹೇಗೆ ಲೆಕ್ಕ ಹಾಕುತ್ತಾರೆ ಅಥವಾ ಅದನ್ನು ಪ್ರತಿನಿಧಿಸುವ ಅರ್ಥವನ್ನು ನಿಖರವಾಗಿ ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದಿಲ್ಲ. ಆದ್ದರಿಂದ, ನಾವು ಮೂರ್ಖರಾಗುತ್ತಿದ್ದೇವೆಯೇ ಅಥವಾ, ಇದು ಗ್ರಹಿಕೆಯ ಸಮಸ್ಯೆಯೇ. ಇದನ್ನು ಮಳೆಯ ಗ್ರಹಿಕೆ ಎಂದು ಕರೆಯೋಣ. ನಾವು ಹವಾಮಾನ ಮುನ್ಸೂಚಕರನ್ನು ದೂಷಿಸುತ್ತೇವೆಯೇ? ನ್ಯಾಯೋಚಿತವಾಗಿ, ಕೆಲವು ಇದೆ ಗೊಂದಲ ಹವಾಮಾನ ಮುನ್ಸೂಚಕರಲ್ಲಿಯೂ ಸಹ. ಒಂದರಲ್ಲಿ ಸಮೀಕ್ಷೆ, ಸಮೀಕ್ಷೆ ನಡೆಸಿದ 43% ಹವಾಮಾನಶಾಸ್ತ್ರಜ್ಞರು PoP ಯ ವ್ಯಾಖ್ಯಾನದಲ್ಲಿ ಬಹಳ ಕಡಿಮೆ ಸ್ಥಿರತೆ ಇದೆ ಎಂದು ಹೇಳಿದ್ದಾರೆ.

ವಿಶ್ಲೇಷಣೆಯು ಪಕ್ಷಪಾತವಾಗಿದೆ

ಪ್ರಭಾವ ಬೀರುವ ಐದು ಅಂಶಗಳಲ್ಲಿ, ವಿಶ್ಲೇಷಣೆಯೇ ಅತ್ಯಂತ ಆಶ್ಚರ್ಯಕರವಾಗಿರಬಹುದು. ವೈಜ್ಞಾನಿಕ ಸಂಶೋಧನೆಯಲ್ಲಿ ಪರಾಮರ್ಶಿಸಿದ ಕಾಗದವನ್ನು ಪ್ರಕಟಿಸಲಾಗುತ್ತದೆ, ವಿಶಿಷ್ಟವಾಗಿ ಒಂದು ಸಿದ್ಧಾಂತವನ್ನು ಊಹಿಸಲಾಗುತ್ತದೆ, ಊಹೆಯನ್ನು ಪರೀಕ್ಷಿಸಲು ವಿಧಾನಗಳನ್ನು ವ್ಯಾಖ್ಯಾನಿಸಲಾಗುತ್ತದೆ, ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಲಾಗುತ್ತದೆ, ನಂತರ ಡೇಟಾವನ್ನು ವಿಶ್ಲೇಷಿಸಲಾಗುತ್ತದೆ. ಮಾಡಲಾದ ವಿಶ್ಲೇಷಣೆಯ ಪ್ರಕಾರ ಮತ್ತು ಅದನ್ನು ಹೇಗೆ ಮಾಡಲಾಗುತ್ತದೆ ಎಂಬುದು ತೀರ್ಮಾನಗಳ ಮೇಲೆ ಹೇಗೆ ಪರಿಣಾಮ ಬೀರುತ್ತದೆ ಎಂಬುದರಲ್ಲಿ ಕಡಿಮೆ ಮೌಲ್ಯಯುತವಾಗಿದೆ. ಎ ಕಾಗದದ ಈ ವರ್ಷದ ಆರಂಭದಲ್ಲಿ (ಜನವರಿ 2022) ಪ್ರಕಟಿಸಲಾಯಿತು, ಇಂಟರ್ನ್ಯಾಷನಲ್ ಜರ್ನಲ್ ಆಫ್ ಕ್ಯಾನ್ಸರ್ನಲ್ಲಿ, ಲೇಖಕರು ಯಾದೃಚ್ಛಿಕ ನಿಯಂತ್ರಿತ ಪ್ರಯೋಗಗಳು ಮತ್ತು ಹಿಂದಿನ ಅವಲೋಕನದ ಅಧ್ಯಯನಗಳ ಫಲಿತಾಂಶಗಳನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಿದರು. ಅವರ ಸಂಶೋಧನೆಗಳು ತೀರ್ಮಾನಿಸಿದವು,

ತುಲನಾತ್ಮಕ ಪರಿಣಾಮಕಾರಿತ್ವದ ಸಂಶೋಧನೆಯಲ್ಲಿ ವಿಶ್ಲೇಷಣಾತ್ಮಕ ಆಯ್ಕೆಗಳನ್ನು ಬದಲಿಸುವ ಮೂಲಕ, ನಾವು ವ್ಯತಿರಿಕ್ತ ಫಲಿತಾಂಶಗಳನ್ನು ರಚಿಸಿದ್ದೇವೆ. ಕೆಲವು ಹಿಂದಿನ ಅವಲೋಕನದ ಅಧ್ಯಯನಗಳು ರೋಗಿಗಳಿಗೆ ಚಿಕಿತ್ಸೆಯು ಫಲಿತಾಂಶಗಳನ್ನು ಸುಧಾರಿಸುತ್ತದೆ ಎಂದು ನಮ್ಮ ಫಲಿತಾಂಶಗಳು ಸೂಚಿಸುತ್ತವೆ, ಆದರೆ ಇನ್ನೊಂದು ರೀತಿಯ ಅಧ್ಯಯನವು ವಿಶ್ಲೇಷಣಾತ್ಮಕ ಆಯ್ಕೆಗಳ ಆಧಾರದ ಮೇಲೆ ಅದನ್ನು ಕಂಡುಕೊಳ್ಳುವುದಿಲ್ಲ.

ಹಿಂದೆ, ವೈಜ್ಞಾನಿಕ ಜರ್ನಲ್ ಲೇಖನವನ್ನು ಓದುವಾಗ, ನೀವು ನನ್ನಂತೆಯೇ ಇದ್ದರೆ, ಫಲಿತಾಂಶಗಳು ಅಥವಾ ತೀರ್ಮಾನಗಳು ಡೇಟಾಗೆ ಸಂಬಂಧಿಸಿದೆ ಎಂದು ನೀವು ಭಾವಿಸಿರಬಹುದು. ಈಗ, ಫಲಿತಾಂಶಗಳು, ಅಥವಾ ಆರಂಭಿಕ ಊಹೆಯನ್ನು ದೃಢೀಕರಿಸಲಾಗಿದೆಯೇ ಅಥವಾ ನಿರಾಕರಿಸಲಾಗಿದೆಯೇ ಎಂಬುದು ವಿಶ್ಲೇಷಣೆಯ ವಿಧಾನವನ್ನು ಅವಲಂಬಿಸಿರಬಹುದು.

ಮತ್ತೊಂದು ಅಧ್ಯಯನ ಇದೇ ರೀತಿಯ ಫಲಿತಾಂಶಗಳನ್ನು ಕಂಡುಕೊಂಡಿದೆ. ಲೇಖನ, ಅನೇಕ ವಿಶ್ಲೇಷಕರು, ಒಂದು ಡೇಟಾ ಸೆಟ್: ವಿಶ್ಲೇಷಣಾತ್ಮಕ ಆಯ್ಕೆಗಳಲ್ಲಿನ ವ್ಯತ್ಯಾಸಗಳು ಫಲಿತಾಂಶಗಳ ಮೇಲೆ ಹೇಗೆ ಪರಿಣಾಮ ಬೀರುತ್ತವೆ ಎಂಬುದನ್ನು ಪಾರದರ್ಶಕಗೊಳಿಸುವುದು, ವಿಶ್ಲೇಷಿಸಲು 29 ವಿಭಿನ್ನ ತಂಡಗಳಿಗೆ ಒಂದೇ ಡೇಟಾವನ್ನು ಅವರು ಹೇಗೆ ನೀಡಿದರು ಎಂಬುದನ್ನು ವಿವರಿಸುತ್ತದೆ. ಡೇಟಾ ವಿಶ್ಲೇಷಣೆಯನ್ನು ಸಾಮಾನ್ಯವಾಗಿ ಕಟ್ಟುನಿಟ್ಟಾದ, ಉತ್ತಮವಾಗಿ ವ್ಯಾಖ್ಯಾನಿಸಲಾದ ಪ್ರಕ್ರಿಯೆಯಾಗಿ ನೋಡಲಾಗುತ್ತದೆ, ಇದು ಒಂದೇ ತೀರ್ಮಾನಕ್ಕೆ ಕಾರಣವಾಗುತ್ತದೆ.  

ವಿಧಾನಶಾಸ್ತ್ರಜ್ಞರ ಪುನರಾವರ್ತನೆಗಳ ಹೊರತಾಗಿಯೂ, ಫಲಿತಾಂಶಗಳು ಆಯ್ಕೆಮಾಡಿದ ವಿಶ್ಲೇಷಣಾತ್ಮಕ ಕಾರ್ಯತಂತ್ರದ ಮೇಲೆ ಅವಲಂಬಿತವಾಗಬಹುದು ಎಂಬ ಅಂಶವನ್ನು ನಿರ್ಲಕ್ಷಿಸುವುದು ಸುಲಭ, ಇದು ಸ್ವತಃ ಸಿದ್ಧಾಂತ, ಊಹೆಗಳು ಮತ್ತು ಆಯ್ಕೆಯ ಅಂಶಗಳೊಂದಿಗೆ ತುಂಬಿರುತ್ತದೆ. ಅನೇಕ ಸಂದರ್ಭಗಳಲ್ಲಿ, ಸಂಶೋಧನಾ ಪ್ರಶ್ನೆಯನ್ನು ಹೊಂದಿರುವ ಡೇಟಾವನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ಹಲವು ಸಮಂಜಸವಾದ (ಮತ್ತು ಅನೇಕ ಅವಿವೇಕದ) ವಿಧಾನಗಳಿವೆ.

ಸಂಶೋಧಕರು ದತ್ತಾಂಶದ ವಿಶ್ಲೇಷಣೆಯನ್ನು ಗುಂಪು-ಮೂಲವನ್ನು ಪಡೆದರು ಮತ್ತು ಎಲ್ಲಾ ಸಂಶೋಧನೆಯು ವ್ಯಕ್ತಿನಿಷ್ಠ ನಿರ್ಧಾರಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ - ಯಾವ ರೀತಿಯ ವಿಶ್ಲೇಷಣೆಯನ್ನು ಬಳಸಬೇಕು - ಇದು ಅಧ್ಯಯನದ ಅಂತಿಮ ಫಲಿತಾಂಶದ ಮೇಲೆ ಪರಿಣಾಮ ಬೀರಬಹುದು ಎಂಬ ತೀರ್ಮಾನಕ್ಕೆ ಬಂದರು.

ಇನ್ನೊಬ್ಬರ ಶಿಫಾರಸು ಸಂಶೋಧಕ ಮೇಲಿನ ಅಧ್ಯಯನವನ್ನು ವಿಶ್ಲೇಷಿಸಿದವರು ನಿರ್ಧಾರಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳುವಾಗ ಅಥವಾ ತೀರ್ಮಾನಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳುವಾಗ ಒಂದೇ ಕಾಗದವನ್ನು ಬಳಸುವಾಗ ಜಾಗರೂಕರಾಗಿರಬೇಕು.

ವಿಶ್ಲೇಷಣೆಯಲ್ಲಿ ಪಕ್ಷಪಾತವನ್ನು ಪರಿಹರಿಸುವುದು

ಇದು ಕೇವಲ ಎಚ್ಚರಿಕೆಯ ಕಥೆ ಎಂದು ಅರ್ಥೈಸಲಾಗಿದೆ. ಜ್ಞಾನವು ನಮ್ಮನ್ನು ವಂಚನೆಗಳಿಂದ ರಕ್ಷಿಸುತ್ತದೆ. ಸ್ಕ್ಯಾನರ್ ನಮ್ಮನ್ನು ಮೋಸಗೊಳಿಸಲು ಬಳಸಬಹುದಾದ ಸಂಭಾವ್ಯ ವಿಧಾನಗಳ ಬಗ್ಗೆ ಹೆಚ್ಚು ತಿಳಿದಿರುತ್ತದೆ, ಪಿಕ್‌ಪಾಕೆಟ್‌ನ ತಪ್ಪು ನಿರ್ದೇಶನ ಅಥವಾ ಪೊಂಜಿ ನಾಟಕದ ಸುಗಮ ಮಾತುಕತೆಯಿಂದ ನಾವು ತೆಗೆದುಕೊಳ್ಳಲ್ಪಡುವ ಸಾಧ್ಯತೆ ಕಡಿಮೆ. ಆದ್ದರಿಂದ ನಮ್ಮ ವಿಶ್ಲೇಷಣೆಯ ಮೇಲೆ ಪರಿಣಾಮ ಬೀರುವ ಸಂಭಾವ್ಯ ಪಕ್ಷಪಾತಗಳನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದು ಮತ್ತು ಗುರುತಿಸುವುದು. ಸಂಭಾವ್ಯ ಪ್ರಭಾವಗಳ ಬಗ್ಗೆ ನಮಗೆ ತಿಳಿದಿದ್ದರೆ, ನಾವು ಕಥೆಯನ್ನು ಉತ್ತಮವಾಗಿ ಪ್ರಸ್ತುತಪಡಿಸಲು ಸಾಧ್ಯವಾಗುತ್ತದೆ ಮತ್ತು ಅಂತಿಮವಾಗಿ ಉತ್ತಮ ನಿರ್ಧಾರಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳಬಹುದು.  

BI/Analyticsವರ್ಗವಿಲ್ಲದ್ದು
ಮೈಕ್ರೋಸಾಫ್ಟ್ ಎಕ್ಸೆಲ್ ಏಕೆ #1 ವಿಶ್ಲೇಷಣಾ ಸಾಧನವಾಗಿದೆ
ಎಕ್ಸೆಲ್ #1 ಅನಾಲಿಟಿಕ್ಸ್ ಟೂಲ್ ಏಕೆ?

ಎಕ್ಸೆಲ್ #1 ಅನಾಲಿಟಿಕ್ಸ್ ಟೂಲ್ ಏಕೆ?

  ಇದು ಅಗ್ಗದ ಮತ್ತು ಸುಲಭ. ಮೈಕ್ರೋಸಾಫ್ಟ್ ಎಕ್ಸೆಲ್ ಸ್ಪ್ರೆಡ್‌ಶೀಟ್ ಸಾಫ್ಟ್‌ವೇರ್ ಬಹುಶಃ ಈಗಾಗಲೇ ವ್ಯಾಪಾರ ಬಳಕೆದಾರರ ಕಂಪ್ಯೂಟರ್‌ನಲ್ಲಿ ಸ್ಥಾಪಿಸಲಾಗಿದೆ. ಮತ್ತು ಇಂದು ಹೆಚ್ಚಿನ ಬಳಕೆದಾರರು ಮೈಕ್ರೋಸಾಫ್ಟ್ ಆಫೀಸ್ ಸಾಫ್ಟ್‌ವೇರ್‌ಗೆ ಹೈಸ್ಕೂಲ್ ಅಥವಾ ಅದಕ್ಕಿಂತ ಮುಂಚೆಯೇ ತೆರೆದುಕೊಂಡಿದ್ದಾರೆ. ಈ ಮಂಡಿಯೂರಿ ಪ್ರತಿಕ್ರಿಯೆಯಾಗಿ...

ಮತ್ತಷ್ಟು ಓದು

BI/Analyticsವರ್ಗವಿಲ್ಲದ್ದು
ನಿಮ್ಮ ಒಳನೋಟಗಳನ್ನು ಅಸ್ತವ್ಯಸ್ತಗೊಳಿಸಿ: ಅನಾಲಿಟಿಕ್ಸ್ ಸ್ಪ್ರಿಂಗ್ ಕ್ಲೀನಿಂಗ್‌ಗೆ ಮಾರ್ಗದರ್ಶಿ

ನಿಮ್ಮ ಒಳನೋಟಗಳನ್ನು ಅಸ್ತವ್ಯಸ್ತಗೊಳಿಸಿ: ಅನಾಲಿಟಿಕ್ಸ್ ಸ್ಪ್ರಿಂಗ್ ಕ್ಲೀನಿಂಗ್‌ಗೆ ಮಾರ್ಗದರ್ಶಿ

ನಿಮ್ಮ ಒಳನೋಟಗಳನ್ನು ಅಸ್ತವ್ಯಸ್ತಗೊಳಿಸು ಅನಾಲಿಟಿಕ್ಸ್ ಸ್ಪ್ರಿಂಗ್ ಕ್ಲೀನಿಂಗ್‌ಗೆ ಮಾರ್ಗದರ್ಶಿ ಹೊಸ ವರ್ಷವು ಅಬ್ಬರದಿಂದ ಪ್ರಾರಂಭವಾಗುತ್ತದೆ; ವರ್ಷಾಂತ್ಯದ ವರದಿಗಳನ್ನು ರಚಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ಪರಿಶೀಲಿಸಲಾಗುತ್ತದೆ, ಮತ್ತು ನಂತರ ಎಲ್ಲರೂ ಸ್ಥಿರವಾದ ಕೆಲಸದ ವೇಳಾಪಟ್ಟಿಯಲ್ಲಿ ನೆಲೆಗೊಳ್ಳುತ್ತಾರೆ. ದಿನಗಳು ಹೆಚ್ಚಾದಂತೆ ಮರಗಳು ಮತ್ತು ಹೂವುಗಳು ಅರಳುತ್ತವೆ ...

ಮತ್ತಷ್ಟು ಓದು

BI/Analyticsವರ್ಗವಿಲ್ಲದ್ದು
NY ಸ್ಟೈಲ್ ವರ್ಸಸ್ ಚಿಕಾಗೊ ಸ್ಟೈಲ್ ಪಿಜ್ಜಾ: ಎ ಡೆಲಿಶಿಯಸ್ ಡಿಬೇಟ್

NY ಸ್ಟೈಲ್ ವರ್ಸಸ್ ಚಿಕಾಗೊ ಸ್ಟೈಲ್ ಪಿಜ್ಜಾ: ಎ ಡೆಲಿಶಿಯಸ್ ಡಿಬೇಟ್

ನಮ್ಮ ಕಡುಬಯಕೆಗಳನ್ನು ಪೂರೈಸುವಾಗ, ಕೆಲವು ವಿಷಯಗಳು ಪಿಜ್ಜಾದ ಪೈಪಿಂಗ್ ಹಾಟ್ ಸ್ಲೈಸ್‌ನ ಸಂತೋಷಕ್ಕೆ ಪ್ರತಿಸ್ಪರ್ಧಿಯಾಗಬಹುದು. ನ್ಯೂಯಾರ್ಕ್-ಶೈಲಿಯ ಮತ್ತು ಚಿಕಾಗೋ-ಶೈಲಿಯ ಪಿಜ್ಜಾ ನಡುವಿನ ಚರ್ಚೆಯು ದಶಕಗಳಿಂದ ಭಾವೋದ್ರಿಕ್ತ ಚರ್ಚೆಗಳನ್ನು ಹುಟ್ಟುಹಾಕಿದೆ. ಪ್ರತಿಯೊಂದು ಶೈಲಿಯು ತನ್ನದೇ ಆದ ವಿಶಿಷ್ಟ ಗುಣಲಕ್ಷಣಗಳನ್ನು ಮತ್ತು ನಿಷ್ಠಾವಂತ ಅಭಿಮಾನಿಗಳನ್ನು ಹೊಂದಿದೆ.

ಮತ್ತಷ್ಟು ಓದು

BI/Analyticsಕಾಗ್ನೋಸ್ ಅನಾಲಿಟಿಕ್ಸ್
ಕಾಗ್ನೋಸ್ ಕ್ವೆರಿ ಸ್ಟುಡಿಯೋ
ನಿಮ್ಮ ಬಳಕೆದಾರರು ತಮ್ಮ ಪ್ರಶ್ನೆ ಸ್ಟುಡಿಯೋವನ್ನು ಬಯಸುತ್ತಾರೆ

ನಿಮ್ಮ ಬಳಕೆದಾರರು ತಮ್ಮ ಪ್ರಶ್ನೆ ಸ್ಟುಡಿಯೋವನ್ನು ಬಯಸುತ್ತಾರೆ

IBM ಕಾಗ್ನೋಸ್ ಅನಾಲಿಟಿಕ್ಸ್ 12 ರ ಬಿಡುಗಡೆಯೊಂದಿಗೆ, ಕ್ವೆರಿ ಸ್ಟುಡಿಯೋ ಮತ್ತು ಅನಾಲಿಸಿಸ್ ಸ್ಟುಡಿಯೊದ ದೀರ್ಘಾವಧಿಯ ಘೋಷಿತ ಅಸಮ್ಮತಿಯು ಅಂತಿಮವಾಗಿ ಕಾಗ್ನೋಸ್ ಅನಾಲಿಟಿಕ್ಸ್‌ನ ಆವೃತ್ತಿಯೊಂದಿಗೆ ಆ ಸ್ಟುಡಿಯೋಗಳನ್ನು ಹೊರತುಪಡಿಸಿ ವಿತರಿಸಲಾಯಿತು. ಇದರಲ್ಲಿ ತೊಡಗಿರುವ ಹೆಚ್ಚಿನ ಜನರಿಗೆ ಇದು ಆಶ್ಚರ್ಯವಾಗಬಾರದು...

ಮತ್ತಷ್ಟು ಓದು

BI/Analyticsವರ್ಗವಿಲ್ಲದ್ದು
ಟೇಲರ್ ಸ್ವಿಫ್ಟ್ ಎಫೆಕ್ಟ್ ನಿಜವೇ?

ಟೇಲರ್ ಸ್ವಿಫ್ಟ್ ಎಫೆಕ್ಟ್ ನಿಜವೇ?

ಕೆಲವು ವಿಮರ್ಶಕರು ಅವರು ಸೂಪರ್ ಬೌಲ್ ಟಿಕೆಟ್ ದರಗಳನ್ನು ಹೆಚ್ಚಿಸುತ್ತಿದ್ದಾರೆ ಎಂದು ಸೂಚಿಸುತ್ತಾರೆ ಈ ವಾರಾಂತ್ಯದ ಸೂಪರ್ ಬೌಲ್ ದೂರದರ್ಶನ ಇತಿಹಾಸದಲ್ಲಿ ಅತಿ ಹೆಚ್ಚು ವೀಕ್ಷಿಸಿದ ಟಾಪ್ 3 ಈವೆಂಟ್‌ಗಳಲ್ಲಿ ಒಂದಾಗಿದೆ ಎಂದು ನಿರೀಕ್ಷಿಸಲಾಗಿದೆ. ಬಹುಶಃ ಕಳೆದ ವರ್ಷದ ದಾಖಲೆಯ ಸಂಖ್ಯೆಗಳಿಗಿಂತ ಹೆಚ್ಚು ಮತ್ತು ಬಹುಶಃ 1969 ರ ಚಂದ್ರನಿಗಿಂತ ಹೆಚ್ಚು...

ಮತ್ತಷ್ಟು ಓದು

BI/Analytics
ಅನಾಲಿಟಿಕ್ಸ್ ಕ್ಯಾಟಲಾಗ್‌ಗಳು – ಎ ರೈಸಿಂಗ್ ಸ್ಟಾರ್ ಇನ್ ದಿ ಅನಾಲಿಟಿಕ್ಸ್ ಇಕೋಸಿಸ್ಟಮ್

ಅನಾಲಿಟಿಕ್ಸ್ ಕ್ಯಾಟಲಾಗ್‌ಗಳು – ಎ ರೈಸಿಂಗ್ ಸ್ಟಾರ್ ಇನ್ ದಿ ಅನಾಲಿಟಿಕ್ಸ್ ಇಕೋಸಿಸ್ಟಮ್

ಮುಖ್ಯ ತಂತ್ರಜ್ಞಾನ ಅಧಿಕಾರಿಯಾಗಿ (CTO) ಪರಿಚಯ, ನಾವು ವಿಶ್ಲೇಷಣೆಯನ್ನು ಅನುಸರಿಸುವ ವಿಧಾನವನ್ನು ಮಾರ್ಪಡಿಸುವ ಉದಯೋನ್ಮುಖ ತಂತ್ರಜ್ಞಾನಗಳಿಗಾಗಿ ನಾನು ಯಾವಾಗಲೂ ಹುಡುಕುತ್ತಿರುತ್ತೇನೆ. ಕಳೆದ ಕೆಲವು ವರ್ಷಗಳಿಂದ ನನ್ನ ಗಮನ ಸೆಳೆದ ಮತ್ತು ಅಪಾರ ಭರವಸೆಯನ್ನು ಹೊಂದಿರುವ ಅಂತಹ ತಂತ್ರಜ್ಞಾನವೆಂದರೆ Analytics...

ಮತ್ತಷ್ಟು ಓದು