Тизеры
Когда мы впервые увидели данные?
- Середина двадцатого века
- Как преемник вулканца, Спок
- 18,000 до н.э.
- Кто знает?
Насколько мы можем зайти в открытую историю, мы находим людей, использующих данные. Интересно, что данные даже предшествуют написанным числам. Некоторые из самых ранних примеров хранения данных относятся примерно к 18,000 2 г. до н.э., когда наши предки на африканском континенте использовали отметки на палочках в качестве формы бухгалтерского учета. Ответы 4 и 21 также принимаются. Однако это была середина двадцатого века, когда бизнес-аналитика впервые была определена в том виде, в каком мы ее понимаем сегодня. BI не получил широкого распространения почти до начала XNUMX века.
Преимущества качества данных очевидны.
- Доверие. Пользователи будут больше доверять данным. “75% руководителей не доверяют своим данным
- Лучшие решения. Вы сможете использовать аналитику данных для принятия более взвешенных решений. Качество данных — одна из двух самых больших проблем, с которыми сталкиваются организации, внедряющие ИИ. (Другой набор навыков персонала.)
- Конкурентное преимущество. Качество данных влияет на операционную эффективность, обслуживание клиентов, маркетинг и итоговую прибыль.
- Успех. Качество данных тесно связано с бизнесом успех.
6 ключевых элементов качества данных
Если вы не можете доверять своим данным, как вы можете уважать их советы?
Сегодня качество данных имеет решающее значение для обоснованности решений, принимаемых предприятиями с помощью инструментов бизнес-аналитики, аналитики, машинного обучения и искусственного интеллекта. Проще говоря, качество данных — это достоверные и полные данные. Возможно, вы видели проблемы качества данных в заголовках:
- Улучшение данных CDC о COVID-19 – «В ходе пандемии CDC улучшал своевременность, полноту и качество критически важных данных для реагирования».
- Мусор на входе, мусор на выходе; Городская служба безопасности обнаружила тревожную картину ненадежного качества данных - «В новом отчете исполняющего обязанности генерального инспектора [Чикаго] говорится, что «проблемы качества данных» влияют на «объективность, полезность и целостность» информации, используемой для распределения ресурсов, измерения производительности сотрудников и мониторинга множества программ».
- GAO обнаруживает проблемы с качеством данных во время развертывания EHR VA – «VA не обеспечила качество данных, перенесенных в его новую систему Cerner EHR».
В некотором смысле — даже в третьем десятилетии бизнес-аналитики — достижение и поддержание качества данных еще сложнее. Некоторые из проблем, которые способствуют постоянной борьбе за поддержание качества данных, включают:
- Слияния и поглощения, которые пытаются объединить разрозненные системы, процессы, инструменты и данные из нескольких организаций.
- Внутренние хранилища данных без стандартов для согласования интеграции данных.
- Дешёвое хранилище упростило сбор и хранение больших объёмов данных. Мы собираем больше данных, чем можем проанализировать.
- Сложность систем данных выросла. Существует больше точек соприкосновения между системой записи, в которую вводятся данные, и точкой потребления, будь то хранилище данных или облако.
О каких аспектах данных мы говорим? Какие свойства данных влияют на их качество? Существует шесть элементов, влияющих на качество данных. Каждая из них представляет собой целые дисциплины.
- своевременность
- Данные готовы и могут быть использованы, когда это необходимо.
- Данные доступны для отчетов на конец месяца, например, в течение первой недели следующего месяца.
- срок действия
- Данные имеют правильный тип данных в базе данных. Текст — это текст, даты — это даты, а числа — это числа.
- Значения находятся в ожидаемых диапазонах. Например, хотя 212 градусов по Фаренгейту — это реальная измеримая температура, это недопустимое значение для температуры человека.
- Значения имеют правильный формат. 1.000000 не имеет того же значения, что и 1.
- Согласованность
- Данные внутренне непротиворечивы
- Нет дубликатов записей
- Целостность
- Связи между таблицами надежны.
- Он не был изменен непреднамеренно. Ценности можно проследить до их происхождения.
- завершенность
- В данных нет «дыр». Все элементы записи имеют значения.
- Нет значений NULL.
- точность
- Данные в среде отчетности или аналитики — хранилище данных, локальное или в облаке — отражают исходные системы, системы или записи.
- Данные из проверенных источников.
Таким образом, мы согласны с тем, что проблема качества данных так же стара, как и сами данные, эта проблема повсеместна и жизненно важна для решения. Итак, что нам с этим делать? Рассматривайте свою программу качества данных как долгосрочный, бесконечный проект.
Качество данных тесно связано с тем, насколько точно эти данные отражают реальность. Честно говоря, некоторые данные важнее других. Знайте, какие данные имеют решающее значение для надежных бизнес-решений и успеха организации. Начните с этого. Сосредоточьтесь на этих данных.
Как Data Quality 101, эта статья представляет собой введение в тему на уровне первокурсника: история, текущие события, проблема, почему это проблема, а также общий обзор того, как решить проблему качества данных в организации. Дайте нам знать, если вы заинтересованы в более глубоком изучении любой из этих тем в статье уровня 200 или уровня выпускника. Если да, то в ближайшие месяцы мы углубимся в детали.