Data Lineage (происхождение данных) — это процесс отслеживания жизненного цикла данных: от источника до конечного использования.
Он показывает, откуда пришли данные, какие трансформации с ними происходили и куда они направились — отчёты, аналитика, ML‑модели.
Ключевые преимущества:
Трассировка данных проходит несколько уровней:
| Уровень | Описание | Пример |
|---|---|---|
| Источник | Первичные таблицы, файлы, базы данных | raw_signups |
| ETL/ELT | Трансформации, объединение, очистка данных | cleaned_customers |
| Хранилище | Витрины данных для BI/аналитики | customer_analytics |
| Конечная точка | Отчёты, дашборды, ML-модели | BI Dashboard, прогноз churn |
Сценарий:
raw_signupscleaned_customerscustomer_analyticsПреимущества: быстро найти источник ошибки, понять, какие отчёты или модели затронет изменение, повысить доверие к аналитике.
| Практика | Описание |
|---|---|
| Автоматическое построение lineage | Использование metadata- или query-tracking инструментов |
| Документирование | Поддержка актуальности схем и полей |
| Governance | Контроль прав доступа и обновлений данных |
Популярные инструменты: Collibra, Alation, Informatica, Apache Atlas, Microsoft Purview.
Data Lineage — это полный путь данных через системы и трансформации. Data Provenance — более узкая концепция происхождения данных.
Table-level, Column-level, End-to-end lineage.
Для контроля качества данных, аудита, анализа ошибок и доверия к аналитике.