EN
DG4All
DG4All
49 subscribers

Enterprise Data World 2024 - Часть2, архитектура данных

В июне 2024 прошел форум EDW 2024, основные моменты, касающиеся моделирования данных представлены в Части 1 - Моделирование данных.
В этой статье поговорим про архитектуру данных.
Стандарт TOGAF®, наиболее известный фреймворк для корпоративной архитектуры, рассматривает архитектуру данных как один из четырех типов корпоративной архитектуры. Эти четыре типа архитектуры - бизнес, данные, приложения и технологические. Они определяют архитектуру данных как “Описание структуры основных типов и источников данных предприятия, логических активов данных, физических активов данных и ресурсов управления данными“. Результаты моделирования данных являются частью архитектуры данных.
В то же время DAMA-DMBOK2 придерживаются другого подхода: они заменяют три типа архитектур (данные, приложения и технологии) одним термином “архитектура данных”.
Мне нравится представление Enterprise Architecture, которое содержит понятие информационная архитектура. Как видно из рисунка, информационная архитектура управляет объектами информационной архитектуры (сущностями), логическими и физическими моделями данных, метаданными, а также инструментами управления данным (под инструментами тут имеем в виду методологию, подходы, стандарты и шаблоны - не информационные системы).
Итак, что обсуждали на форуме EDW 2024 в части архитектуры данных? Ключевой топик - вопросы сбора, интеграции и хранения данных для различных бизнес-потребностей предприятия.
На сегодняшний день компании внедрили большое количество различных архитектурных подходов для целей управления данными: data warehouse, data lake, data lakehouse, data mesh and data fabric.
Каждый из этих архитектурных приемов имеет свои преимущества, недостатки и области применимости.
- Data warehouse architecture позволяет хранить данные из нескольких источников в центральном репозитории. Эти данные могут быть использованы для анализа истории изменений, а также для выявления трендов и прогнозирования. Это обеспечивает единую версию правды.
- Data lake хранит необработанные данные в их собственном формате без изменений. Оно обеспечивает более быстрый доступ к данным, повышает производительность и сохраняет все исторические данные.
- Data lakehouse объединяет в себе функциональные возможности хранилища данных и озер данных.

- Data Fabric — это «новый подход в управлении данными, позволяющий создавать гибкие, повторно используемые и расширяемые конвейеры интеграции данных, сервисы и семантики» (определение Gartner). Data Fabric включает в себя дополнительные технологии, которые не предусматривают стандартные DWH, например, управление метаданными.
- Data mesh — это децентрализованный подход к управлению данными, который охватывает различные слои архитектуры: данные, приложения и технологии. Этот подход включает несколько основных принципов: domain ownership, data as a product, self-service infrastructure, and federated computational governance (подробнее в статье Что такое Data Mesh).
Выбор необходимой архитектуры обработки и хранения данных должен осуществляться на основе согласования принципов архитектуры данных и передовой практики, бизнес-потребностей в аналитических решениях, а также технологий и продуктов поставщиков - не существует универсальной архитектуры. Так например, архитектура данных для обработки и хранения данных систем, обеспечивающих работу операций, отличается от архитектуры данных аналитических систем.  
Проблема с текущим подходом заключается в том, что все рассмотренные выше архитектуры данных фокусируются на аналитических данных, в то время как операционные процессы и  системы, обеспечивающие их работу, имеют сложные связи «многие ко многим». Примерами архитектуры таких систем являются хранилища и концентраторы операционных данных.
Для взаимодействия всех типов данных требуется стандартный язык для четкой, недвусмысленной коммуникации. Семантический слой — это средство для создания такой коммуникации. Создание семантического слоя требует внедрения процессов моделирования семантических данных и внедрения графовых технологий. Онтологии и таксономии данных формируют основу для построения графов знаний.
Так например, развитие подхода Data Mesh привело к развитию концептуального моделирования: разработке концептов и шаблонов для продуктов, дата-контрактов и дата-API. Концептуальное проектирование охватывает такие понятия как структура данных, формат, семантика, качество и условия использования. 
Для обеспечения успеха проектов внедрения архитектуры данных необходимо предоставлять множество артефактов.  Документация должна включать диаграммы потоков и преобразования данных, диаграммы интеграции систем, мэппинги «от источника к цели», концептуальные, логические и физические модели данных и т. д.
Стоит отметить, что эти артефакты применимы как к текущей, так и к целевой архитектуре данных.
Архитектура данных оказала сильное влияние на модернизацию и развитие направлений анализа данных и науки о данных. 
Полный текст статьи на английском.

Subscription levels

Юзверь

$ 1,13 per month
Оставить чаевые автору :)
и получить ранний доступ к статьям и  материалам к ним (скачать можно в течение месяца с момента публикации)

Дата-Котик

$ 4,6 per month
Бессрочный доступ к статьям и материалам к ним

Мастодонт

$ 11,3 per month
Доступ ко всем статьям, материалам и к дополнительному контенту.
Или просто Большое спасибо автору
Go up