Data Quality (качество данных) — это степень, в которой данные соответствуют требованиям бизнеса и могут использоваться для принятия правильных решений. Высокое качество данных повышает точность отчетности, эффективность процессов и доверие к аналитике.
Для оценки Data Quality используют ключевые метрики:
| Метрика | Что измеряет | Пример / эффект |
|---|---|---|
| Полнота (Completeness) | Все необходимые данные присутствуют | В карточке клиента нет пустых полей с контактами |
| Точность (Accuracy) | Данные верны и соответствуют реальности | Адрес клиента совпадает с официальным |
| Согласованность (Consistency) | Нет противоречий между источниками | Статус заказа одинаков в CRM и ERP |
| Уникальность (Uniqueness) | Нет дубликатов | Один клиент = одна запись |
| Своевременность (Timeliness) | Данные актуальны на момент использования | Цены обновлены на дату формирования отчета |
| Валидность (Validity) | Данные соответствуют установленным правилам | Номер телефона соответствует формату +7 999 999 99 99 |
Последствия: неверная аналитика, ошибки в отчетах, снижение доверия к системе.
Эффективное управление качеством данных — это процесс, включающий:
| Этап DQM | Что делается | Цель |
|---|---|---|
| Аудит | Анализ существующих источников | Выявить проблемные зоны |
| Очистка | Удаление дублей, исправление ошибок | Уменьшить количество «грязных» данных |
| Стандартизация | Форматы, единицы, структуры | Сделать данные сопоставимыми |
| Контроль | Автоматические проверки, отчеты | Поддерживать стабильное качество данных |
Data Quality — это степень, в которой данные соответствуют требованиям бизнеса и могут использоваться для точной аналитики, отчетности и принятия решений. Важны точность, полнота, согласованность и актуальность данных.
Основные метрики Data Quality:
Основные проблемы: дубли, пропущенные значения, неконсистентные форматы, устаревшие данные. Это может привести к ошибкам в аналитике, неверным бизнес‑решениям и снижению доверия к системе.
Управление качеством данных — это процесс, включающий:
Высокое качество данных улучшает точность решений, снижает риск ошибок, повышает эффективность процессов и доверие к аналитике. Это критично для отчетности, интеграции, BI и проектов с машинным обучением.