DG4All

DG4All 

Data Governance для Чайников

86subscribers

99posts

Showcase

19

Кимбалл. Проектирование хранилищ данных

Кимбалла пролистала очень быстро по диагонали.
 
В книге про построение хранилищ есть совсем чуть-чуть: в 1-й главе вводная часть вообще, во 2-й даны фундаментальные пояснения к продвигаемому подходу моделирования. И в целом всё. Дальше несколько глав посвящены особенностям проектирования различных предметных областей, прочитав которые можно познакомиться с подходами разработки витрин для следующих направлений:
1. Розничная торговля
2. Товарные запасы
3. Закупки
4. Управление заказами
5. Управление клиентами
6. Бухгалтерский учёт
7. Управление персоналом
8. Денежные средства
9. Телеком
10. Транспорт
11. Образование
12. Здравоохранение
13. Электронная коммерция
14. Страхование
Прекрасное начало книги, фундаментальное утверждение ))

Одним из важнейших активов любой организации является ее информация. Этот актив почти всегда хранится в организации в двух формах: 
               - данные систем учёта операций (OLTP); 
               - хранилище данных (OLAP).  
По Кимбаллу хранилище представляет из себя следующий автоматизированный комплекс (см. Figure 1.1):
Большое внимание в книге уделено именно вопросам построения витрин. Вообще витрина - это ключевой и центральный элемент хранилища по Кимбаллу.  Для построения витрин он предлагает использовать принципы нормализации данных и, практически, предлагает нам использовать 3NF форму для проектирования витрин отдельных предметных областей (EM - Enterprise Mart).

Кимбалл называет свой подход проектирования "snowflaking", и  уже во второй главе книги рассказывает про его особенности и паттерн проектирования (см. Figure 2.12).
Если кратко: Кимбалл предлагает не затягивать в одну таблицу описания Измерения все характеристики, которые у вас требует пользователь, а, прибегнув к декомпозиции, раскидать все транзитивные данные по отдельным таблицам, связанным со своей основной Dimension  (Моделирование хранилищ - Общие понятия. Часть3). На примере-картинке основная таблица Product Dimension связана транзитивно с дополнительными таблицами-измерениями Brand и Package, а далее по цепочке с Category и Department.
Глоссарий по Кимбаллу:
Схема «Звезда» STAR - общее представление многомерной модели в реляционной базе данных, в которой таблица фактов (Fact) с составным ключом соединена с несколькими таблицами измерений (Dimension), каждая из которых имеет один первичный ключ (Инмон. Построение хранилищ данных).

Схема «Снежинка» SNOWFLAKE  - нормализованное измерение, в котором одна таблица измерения разлагается в древовидную структуру с потенциально большим количеством уровней вложенности. В размерном моделировании таблицы фактов в схемах «снежинка» и «звезда» будут идентичны, но измерения в «снежинке» представлены в третьей нормальной форме. «Снежинка» с нормализованными таблицами измерений может существовать в промежуточной области для облегчения последующей обработки и обслуживания данных.
Факт (Fact) - показатель эффективности бизнеса, обычно числовой и добавленный искусственно, который хранится в таблице фактов (по другому это метрика -  прим. автора).
Таблица фактов - в схеме звезды (многомерная модель) центральная таблица с числовыми показателями производительности, характеризуемая составным ключом, каждый из элементов которого является внешним ключом для таблицы измерений.

Измерение (Dimension) - независимая сущность в многомерной модели, которая служит входной точкой или механизмом для описания и декомпозиции дополнительных параметров, расположенных в таблице фактов многомерной модели.
Таблица измерений - таблица в многомерной модели с однокомпонентным первичным ключом и столбцами описательных атрибутов. 
P.S.: Лично мне книга не зашла и к прочтению не рекомендую. Но делюсь экземпляром, прочитав который, каждый может решить сам для себя - полезен этот toolkit или нет.
P.P.S.: Я не BI-щик, возможно тем, кто активно занимается разработкой витрин, эта книга подарит много пользы.
pdf
The Data Warehouse Toolkit.pdf4.46 Mb
Subscription levels3

Юзверь

$1.35 per month
Оставить чаевые автору :)
и получить ранний доступ к статьям и  материалам к ним (скачать можно в течение месяца с момента публикации)

Дата-Котик

$5.4 per month
Бессрочный доступ к статьям и материалам к ним

Мастодонт

$13.5 per month
Доступ ко всем статьям, материалам и к дополнительному контенту.
Или просто Большое спасибо автору
Go up