Data Lineage (происхождение данных) — это процесс отслеживания жизненного цикла данных: от источника до конечного использования.
Он показывает, откуда пришли данные, какие трансформации с ними происходили и куда они направились — отчёты, аналитика, ML‑модели.
Ключевые преимущества:
- Контроль качества и аудит данных
- Повышение доверия к данным
- Отслеживание ошибок и root‑cause анализ
- Соответствие требованиям GDPR и внутренним регламентам
Как работает Data Lineage
Трассировка данных проходит несколько уровней:
| Уровень | Описание | Пример |
|---|---|---|
| Источник | Первичные таблицы, файлы, базы данных | raw_signups |
| ETL/ELT | Трансформации, объединение, очистка данных | cleaned_customers |
| Хранилище | Витрины данных для BI/аналитики | customer_analytics |
| Конечная точка | Отчёты, дашборды, ML-модели | BI Dashboard, прогноз churn |
Пример Data Lineage
Сценарий:
- Пользователь заполняет форму → запись в таблицу
raw_signups - ETL очищает данные → таблица
cleaned_customers - Витрина для аналитики →
customer_analytics - Данные используются в BI‑отчёте или ML‑модели
Преимущества: быстро найти источник ошибки, понять, какие отчёты или модели затронет изменение, повысить доверие к аналитике.
Лучшие практики и инструменты
| Практика | Описание |
|---|---|
| Автоматическое построение lineage | Использование metadata- или query-tracking инструментов |
| Документирование | Поддержка актуальности схем и полей |
| Governance | Контроль прав доступа и обновлений данных |
Популярные инструменты: Collibra, Alation, Informatica, Apache Atlas, Microsoft Purview.
FAQ
Чем Data Lineage отличается от Data Provenance?
Data Lineage — это полный путь данных через системы и трансформации. Data Provenance — более узкая концепция происхождения данных.
Какие уровни детализации бывают?
Table-level, Column-level, End-to-end lineage.
Для чего нужен Data Lineage бизнесу?
Для контроля качества данных, аудита, анализа ошибок и доверия к аналитике.