ETL (Extract‑Transform‑Load) — это процесс извлечения, преобразования и загрузки данных из разных источников в централизованное хранилище данных (DWH).
Применяется для интеграции данных, подготовки информации для BI, аналитики и машинного обучения (ML).
| Этап | Задачи | Примеры / инструменты |
|---|---|---|
| Extract (Извлечение) | Получение данных из разных источников | базы данных, CSV/Excel, API, веб-сервисы |
| Transform (Преобразование) | Очистка, нормализация, объединение, расчёт метрик | удаление дубликатов, стандартизация форматов, вычисление KPI |
| Load (Загрузка) | Загрузка обработанных данных в хранилище | DWH, Data Lake, витрины аналитики |
Каждый этап формирует мини-чанк информации, готовый для аналитических отчётов и BI-систем.
Кейс для интернет-магазина:
| Инструмент | Тип | Особенности |
|---|---|---|
| Talend | Open Source / Коммерческий | Визуальный конструктор, множество коннекторов |
| Pentaho (PDI) | Open Source / Коммерческий | ETL + BI, batch и real-time интеграция |
| Airbyte | Open Source / SaaS | Гибкая интеграция источников, современные коннекторы |
| AWS Glue | Облачный | Serverless, масштабируемый, интеграция с AWS |
| Azure Data Factory | Облачный | Визуальная оркестрация ETL, интеграция с Microsoft экосистемой |
Когда выбирать ETL: классический DWH, сложные преобразования до загрузки.
Когда ELT эффективнее: большие объёмы данных, облачные решения, Data Lakehouse.
ETL — процесс Extract, Transform, Load: извлечение, преобразование и загрузка данных для аналитики, BI и ML.
В ETL трансформация данных происходит до загрузки, в ELT — после загрузки в хранилище.
Talend, Pentaho, Airbyte, AWS Glue, Azure Data Factory.
Для интеграции данных из разных источников, подготовки отчётов и аналитики.
Только если данные простые и не требуют трансформации.