تیزرها
اولین بار چه زمانی داده ها را دیدیم؟
- اواسط قرن بیستم
- اسپاک به عنوان جانشین Vulcan
- 18,000 BC
- چه کسی می داند؟
تا آنجا که می توانیم در تاریخ کشف شده برگردیم، انسان هایی را می یابیم که از داده ها استفاده می کنند. جالب اینجاست که داده ها حتی مقدم بر اعداد نوشته شده هستند. برخی از اولین نمونههای ذخیرهسازی دادهها مربوط به حدود 18,000 سال قبل از میلاد است که در آن اجداد ما در قاره آفریقا از علامتهایی بر روی چوبها به عنوان شکلی از حسابداری استفاده میکردند. پاسخ 2 و 4 نیز پذیرفته می شود. با این حال، اواسط قرن بیستم بود، زمانی که هوش تجاری برای اولین بار به گونهای که ما امروز میفهمیم تعریف شد. BI تقریباً تا اوایل قرن بیست و یکم گسترده نشد.
مزایای کیفیت داده آشکار است.
- اعتماد. کاربران بهتر به داده ها اعتماد خواهند کرد. "75 درصد از مدیران به داده های خود اعتماد ندارند"
- تصمیمات بهتر. شما می توانید از تجزیه و تحلیل در برابر داده ها برای تصمیم گیری هوشمندانه استفاده کنید. کیفیت داده یکی از دو چالش بزرگ پیش روی سازمان هایی است که هوش مصنوعی را اتخاذ می کنند. (دیگر مجموعه مهارت های کارکنان است.)
- مزیت رقابتی. کیفیت داده ها بر کارایی عملیاتی، خدمات مشتری، بازاریابی و درآمد نهایی تأثیر می گذارد.
- موفقیت. کیفیت داده ها به شدت با تجارت مرتبط است موفقیت.
6 عنصر کلیدی کیفیت داده ها
اگر نمی توانید به داده های خود اعتماد کنید، چگونه می توانید به توصیه های آن احترام بگذارید؟
امروزه، کیفیت داده ها برای اعتبار تصمیماتی که کسب و کارها با ابزارهای BI، تجزیه و تحلیل، یادگیری ماشین و هوش مصنوعی می گیرند، حیاتی است. در ساده ترین حالت، کیفیت داده، داده ای است که معتبر و کامل باشد. ممکن است مشکلات کیفیت داده ها را در سرفصل ها دیده باشید:
- بهبود داده های COVID-19 CDC - "در طول دوره همه گیری، CDC به موقع بودن، کامل بودن و کیفیت داده های حیاتی برای پاسخ را بهبود بخشیده است."
- زباله به داخل، زباله بیرون. سازمان دیده بان شهری الگوی نگران کننده ای از کیفیت داده های غیرقابل اعتماد پیدا می کند - «گزارش جدیدی از بازرس کل [شیکاگو] موقت می گوید که «مسائل کیفیت داده ها» بر «عینیت، سودمندی و یکپارچگی» اطلاعات مورد استفاده برای تخصیص منابع، سنجش عملکرد کارکنان و نظارت بر مجموعه ای از برنامه ها تأثیر می گذارد.
- GAO مشکلات کیفیت داده را در طول عرضه EHR VA پیدا می کند - "VA از انتقال کیفیت داده ها به سیستم جدید Cerner EHR اطمینان حاصل نکرد."
از برخی جهات - حتی در دهه سوم هوش تجاری - دستیابی و حفظ کیفیت داده ها حتی دشوارتر است. برخی از چالش هایی که به مبارزه مداوم برای حفظ کیفیت داده کمک می کند عبارتند از:
- ادغامها و اکتسابهایی که سعی میکنند سیستمها، فرآیندها، ابزارها و دادههای متفاوت را از چندین نهاد گرد هم بیاورند.
- سیلوهای داخلی داده بدون استانداردهایی برای تطبیق ادغام داده ها.
- ذخیره سازی ارزان، ضبط و نگهداری حجم زیادی از داده ها را آسان تر کرده است. ما بیشتر از آن چیزی که بتوانیم تجزیه و تحلیل کنیم، داده ها را جمع آوری می کنیم.
- پیچیدگی سیستم های داده افزایش یافته است. نقاط تماس بیشتری بین سیستم ثبت که در آن داده ها وارد می شود و نقطه مصرف وجود دارد، خواه انبار داده باشد یا ابر.
در مورد چه جنبه هایی از داده ها صحبت می کنیم؟ چه ویژگی هایی از داده ها به کیفیت آن کمک می کند؟ شش عنصر وجود دارد که به کیفیت داده ها کمک می کند. هر کدام از اینها رشته های کاملی هستند.
- به موقع بودن
- داده ها در صورت نیاز آماده و قابل استفاده هستند.
- برای مثال، داده ها برای گزارش پایان ماه در هفته اول ماه بعد در دسترس هستند.
- اعتبار
- داده ها دارای نوع داده صحیح در پایگاه داده هستند. متن متن است، تاریخ ها تاریخ و اعداد اعداد هستند.
- مقادیر در محدوده مورد انتظار هستند. به عنوان مثال، در حالی که 212 درجه فارنهایت یک دمای واقعی قابل اندازه گیری است، برای دمای انسان یک مقدار معتبر نیست.
- مقادیر فرمت صحیحی دارند. 1.000000 همان معنای 1 را ندارد.
- ثبات
- داده ها از نظر داخلی سازگار است
- هیچ رکورد تکراری وجود ندارد
- تمامیت
- روابط بین جداول قابل اعتماد است.
- ناخواسته تغییر نکرده است. ارزش ها را می توان در منشأ آنها ردیابی کرد.
- کمال
- هیچ "حفره ای" در داده ها وجود ندارد. همه عناصر یک رکورد دارای مقادیر هستند.
- هیچ مقدار NULL وجود ندارد.
- دقت
- دادهها در محیط گزارشدهی یا تحلیلی - انبار دادهها، چه در حالت اولیه یا در فضای ابری - منعکسکننده سیستمها، سیستمها یا رکوردهای منبع هستند.
- داده ها از منابع قابل تایید است.
پس ما موافقیم که چالش کیفیت داده به اندازه خود داده قدیمی است، مشکل همه جا حاضر است و حل آن حیاتی است. بنابراین، ما در مورد آن چه کنیم؟ برنامه کیفیت داده خود را به عنوان یک پروژه بلند مدت و بی پایان در نظر بگیرید.
کیفیت داده ها دقیقاً نشان می دهد که آن داده ها چقدر واقعیت را نشان می دهند. صادقانه بگویم، برخی از داده ها مهم تر از داده های دیگر هستند. بدانید چه داده هایی برای تصمیم گیری های تجاری محکم و موفقیت سازمان حیاتی هستند. از آنجا شروع کنید. روی آن داده ها تمرکز کنید.
به عنوان کیفیت داده 101، این مقاله مقدمه ای در سطح دانشجوی سال اول برای این موضوع است: تاریخچه، رویدادهای جاری، چالش، چرایی مشکل و یک نمای کلی از نحوه پرداختن به کیفیت داده در یک سازمان. اگر مایلید در یک مقاله در سطح 200 یا سطح فارغ التحصیلان به بررسی عمیق تری به هر یک از این موضوعات بپردازید، به ما اطلاع دهید. اگر چنین است، در ماههای آینده به جزئیات بیشتر خواهیم پرداخت.