Data Lineage

Data Lineage (происхождение данных) — это процесс отслеживания жизненного цикла данных: от источника до конечного использования.
Он показывает, откуда пришли данные, какие трансформации с ними происходили и куда они направились — отчёты, аналитика, ML‑модели.

Ключевые преимущества:

  • Контроль качества и аудит данных
  • Повышение доверия к данным
  • Отслеживание ошибок и root‑cause анализ
  • Соответствие требованиям GDPR и внутренним регламентам

Как работает Data Lineage

Трассировка данных проходит несколько уровней:

Уровень Описание Пример
Источник Первичные таблицы, файлы, базы данных raw_signups
ETL/ELT Трансформации, объединение, очистка данных cleaned_customers
Хранилище Витрины данных для BI/аналитики customer_analytics
Конечная точка Отчёты, дашборды, ML-модели BI Dashboard, прогноз churn

Пример Data Lineage

Сценарий:

  1. Пользователь заполняет форму → запись в таблицу raw_signups
  2. ETL очищает данные → таблица cleaned_customers
  3. Витрина для аналитики → customer_analytics
  4. Данные используются в BI‑отчёте или ML‑модели

Преимущества: быстро найти источник ошибки, понять, какие отчёты или модели затронет изменение, повысить доверие к аналитике.

Лучшие практики и инструменты

Практика Описание
Автоматическое построение lineage Использование metadata- или query-tracking инструментов
Документирование Поддержка актуальности схем и полей
Governance Контроль прав доступа и обновлений данных

Популярные инструменты: Collibra, Alation, Informatica, Apache Atlas, Microsoft Purview.

FAQ

Чем Data Lineage отличается от Data Provenance?

Data Lineage — это полный путь данных через системы и трансформации. Data Provenance — более узкая концепция происхождения данных.

Какие уровни детализации бывают?

Table-level, Column-level, End-to-end lineage.

Для чего нужен Data Lineage бизнесу?

Для контроля качества данных, аудита, анализа ошибок и доверия к аналитике.