Хранилище данных (Data Warehouse, DWH) — это централизованная база для хранения и анализа информации из разных источников: ERP, CRM, веб-сервисов, Excel-файлов и баз данных.
Цель DWH: объединить данные в единую структуру для отчетов, бизнес-аналитики и стратегических решений.
Основные преимущества:
- Интеграция данных из разных систем
- Историчность и консистентность
- Ускорение аналитики
- Поддержка принятия управленческих решений
Архитектура DWH
Классическая архитектура DWH состоит из нескольких слоев:
| Слой | Описание | Примеры данных |
|---|---|---|
| Staging | Временное хранение сырых данных | ERP, CRM, файлы CSV |
| DWH Core | Основное хранилище, интегрированные данные | Транзакции, продажи, клиенты |
| Data Mart | Витрины для отдельных бизнес-направлений | Финансы, маркетинг, продажи |
Подходы к построению:
- Inmon («сверху-вниз»): создается единое корпоративное хранилище → витрины
- Kimball («снизу-вверх»): создаются витрины → объединяются в DWH
Пример использования DWH
Пример: розничная сеть собирает данные о продажах, остатках и клиентской активности. DWH объединяет все данные в единую структуру, а аналитики строят отчеты и прогнозы для маркетинга и закупок.
Поток данных:
- Источники → 2. Staging → 3. DWH → 4. Data Mart → 5. BI/отчеты
DWH vs Data Mart: отличия
| Характеристика | DWH | Data Mart |
|---|---|---|
| Объем данных | Весь корпоративный | Подмножество, конкретная область |
| Цель | Центральное хранилище для всех данных | Быстрый доступ к специализированным данным |
| Пользователи | Руководство, аналитики | Отделы, отдельные команды |
| Гибкость | Средняя | Высокая |
| Историчность | Да | Часто ограничена |
FAQ
Для чего нужно хранилище данных?
DWH позволяет объединить разрозненные данные, обеспечить их целостность, хранить историю и строить точные отчеты.
Чем DWH отличается от обычной базы данных?
DWH оптимизирован на чтение и аналитику, хранит исторические данные и объединяет источники, в отличие от OLTP-систем, которые работают с текущими транзакциями.
Когда нужен Data Mart?
Когда отделу нужна отдельная витрина данных для быстрого доступа и анализа конкретной бизнес-области.