EN
creator cover DG4All

DG4All

Data Governance для Чайников
DG4All
53
subscribers

About the creator

Data Governance для Чайников - простыми словами про Управление данными, Качество данных и Моделирование данных.
Основная миссия канала: Дата-Ликбез и помощь всем в работе с данными.
Ранний доступ: Все статьи доступны сначала по подписке, через 3-7 дней доступ разблокируется - просто нужно +Отслеживать новости.
Материал к статье: выкладываю рабочие примеры в таблицах или текстовых файлах, доступно по подписке или разово.
Дополнительный контент: готовые модели данных, презентации, методологии и прочее - бери и работай - доступно по подписке Мастодонт или разово.
Контент с пометкой Эксклюзив распространяется только по разовой оплате.
Архив статей за 2023 год доступен на дзен, новости публикуются в телеграм 

Моделирование хранилищ данных - общие понятия. Часть 2

Продолжаем осваивать базовые понятия из области управления данными и рассуждать на тему для чего они нам могут пригодиться при проектировании хранилищ.
Для хранения и управления оперативными или учетными данными у нас предназначены OLTP-системы (см. Толковый словарь DG). Отличительной особенностью таких систем является (в большинстве случаев) хранение данных в реляционных базах данных. 
Чем отличаются реляционные базы от прочих - особым способом организации хранения данных или схемой базы данных, которая подразумевает, что для каждой сущности в базе создана отдельная таблица, экземпляры сущностей хранятся в строках этой таблицы, а в полях таблицы - атрибуты или свойства сущности. 

Почему Реляционная? Потому что она хранит Отношения (relations) экземпляров сущностей и их свойств между собой, которые представлены в виде таблиц с записями (row) и полями (columns). Т.е. все данные в базе соотносятся друг с другом таким образом, что соблюдаются три основных принципа поведения данных:
Show more

Моделирование хранилищ данных - общие понятия. Часть 1

Потихоньку подбираемся к хранилищам :)
Чтобы не сломаться в самом начале пути, вспомним что такое данные и почему их хранят в специализированных системах - Базах данных. А потом перейдём к таким понятиям как нормализация, реляционность и т.д.
Подробно про данные можно почитать в более ранней статье - что это такое, где они живут и какие они бывают. Если кратко, то данные - это вся цифровая информация, которая окружает нас с вами: файлы на компьютере, видео на экране, музыка в наушниках, тексты в интернете и, конечно, документы и отчеты, которые вы готовите на работе.
База данных - это цифровое пространство, которое содержит всю эту информацию. Главная и отличительная черта базы данных в том, что она должна уметь не только хранить данные, но также позволять быстро находить и извлекать те данные, которые вам потребуются в тот или иной момент. А это значит, что информация должна быть структурирована и уложена так, чтобы её всегда можно было достать.
Вопросами структурирования и упорядочивания информации внутри базы данных занимается раздел знаний - Моделирование. Модель данных - описывает предметную область. Что такое моделирование данных и какими бывают модели - читаем тут.
Элементами описания модели данных являются сущности, атрибуты и связи (отношения). Для описания предметной области на концептуальном уровне или на логическом этого будет достаточно.
Show more
Зачем нам нужны процессы Data Governance?
Сколько времени уходит на анализ данных? Как часто мы к нему обращаемся? От чего зависит и как меняется T2M, смотрите в эл.таблице в статье
Level required:
Дата-Котик

ИИ для именования объектов КМД или грабли, на которые мы наступаем

Возникла задача автоматизировать процесс присвоения имён сущностям и атрибутам концептуальной модели данных. Также замахнулись на использование ИИ для решения этой задачи в каком-нибудь приемлемом виде ))
AS IS процесс или Что у нас есть
Если кратко, у нас есть процесс ведения бизнес-глоссария, в котором заполняется ряд полей, необходимых для дальнейшей идентификации данных на ИТ-пространстве и применения этой инфо в других процессах управления данными. И одним из таких полей является поле "Уникальное имя объекта в КМД" (концептуальная модель данных).
Для решения поставленной задачи, располагаем:
- Бизнес-глоссарий, а в нём: краткое имя термина на русском/английском языке и Описание термина на русском языке.
- Концептуальная модель, которая является классификатором всех данных в компании.
- Архитектор данных, который глазками смотрит на всё это безобразие и присваивает "Уникальное имя объекта КМД" - некий мнемокод.
Мнемокод - это уникальный ключ объекта данных на всём ИТ-пространстве. Про ключи читайте тут.
Автоматизация любого процесса предполагает наличие алгоритма - правил, которые расскажут машине (ИИ) как нужно присваивать мнемокод новым объектам данным. Привожу тут общие правила присвоения мнемокода, чтобы дальше было понятнее как сейчас работаем:
Show more

Напоминалочка: материал к статье


Выложены рабочие материалы к статьям:
- В этой статье можно найти ссылку на книгу "Основы реляционных баз данных" Ребекки М. Райордан (Rebecca M. Riordan designing relational database systems)  
- Статья Зачем нам нужны процессы Data Governance? - и подкрепляющий материал с расчётом "Снижение T2M на Анализ данных"
- Книга о том, как правильно повышать качество данных: пошаговая инструкция;
Роли в Data Management: список функций и результатов в разрезе направлений Data Management c указанием роли, которая выполняет эти функции.
- Дополнительный контент к статье: Роль аудита в оценке уровня зрелости -  сводная таблица с вопросами аудита по 6-ти направлениям;
- Владельцы данными - материал к статье в виде презентации о том что такое владение и откуда оно берётся;
- Материал к статье: Инструмент моделирования данных - функциональные требования к инструменту;
- Моделирование данных: варианты организационных структур для процесса, отдела моделирования и требования к должности;
Show more

Успешная стратегия качества данных

Максимизация ценности данных часто сводится к тому, чтобы обеспечить их нахождение в нужном месте в нужное время и в нужной форме. Чтобы решить эту простую на первый взгляд формулу, вам потребуется стратегия повышения качества данных.
Во-первых, руководство должно оценить зрелость компании на организационном уровне, чтобы понять, где, скорее всего, потребуется внедрение новых правил. Организация, которая работает более века по принципу "так исторически сложилось", будет кардинально отличаться от стартапа с высокой ротацией кадров.   
Во-вторых, необходимо выявить бизнес-критичные области, которые наиболее страдают от  низкого качества. Такими могут быть, например, процессы, связанные с обслуживанием клиентов, или регулярная отчетность компании.
В любом случае, высшее руководство должно осознавать важность данных для миссии организации. Другими словами, разработанная на основании стратегии Data Quality программа повышения качества, должна получить поддержку высшего руководства.
И вот на этом месте жирная точка.

Качество должно быть превыше скорости поставки изменений в продукт. Потому как в отсутствие качества, вы в итоге получаете говнукт, данные которого уходят в  говнилище. 

Роли в Data Management

Когда-то давным-давно на просторах интернета был найден вот такой вот полезный файл: 
Data_Governance_Roles.xlsx45.59 KbDownload
Именно на основании этого файла и пособия для дата-озабоченных DAMA-DMBoK проектировалась организационная структура подразделения Дата.
Думаю, что у большинства из вас, кто давно занимается Data Governance, этот файлик тоже есть. Но вдруг кто-то пропустил?
Спасибо хорошему человеку, который когда-то собрал эту замечательную табличку на русском языке, а также ещё одному не менее хорошему человеку, который выложил этот файл в общий доступ.
Версия в Excel 97-2003:
Data_Governance_Roles_ov.xls166.50 KbDownload

Enterprise Data World 2024 - Часть2, архитектура данных

В июне 2024 прошел форум EDW 2024, основные моменты, касающиеся моделирования данных представлены в Части 1 - Моделирование данных.
В этой статье поговорим про архитектуру данных.
Стандарт TOGAF®, наиболее известный фреймворк для корпоративной архитектуры, рассматривает архитектуру данных как один из четырех типов корпоративной архитектуры. Эти четыре типа архитектуры - бизнес, данные, приложения и технологические. Они определяют архитектуру данных как “Описание структуры основных типов и источников данных предприятия, логических активов данных, физических активов данных и ресурсов управления данными“. Результаты моделирования данных являются частью архитектуры данных.
В то же время DAMA-DMBOK2 придерживаются другого подхода: они заменяют три типа архитектур (данные, приложения и технологии) одним термином “архитектура данных”.
Мне нравится представление Enterprise Architecture, которое содержит понятие информационная архитектура. Как видно из рисунка, информационная архитектура управляет объектами информационной архитектуры (сущностями), логическими и физическими моделями данных, метаданными, а также инструментами управления данным (под инструментами тут имеем в виду методологию, подходы, стандарты и шаблоны - не информационные системы).
Show more

Повышение качества данных: пошаговая инструкция

This eBook describes the proven data monitoring process that will help you remove all data quality problems. It was created by the DQOps Team based on their experience in data cleansing and data quality monitoring.
В этой книге описан проверенный процесс мониторинга данных, который поможет вам устранить все проблемы с качеством данных. Он был создан командой DQOps на основе их опыта в области очистки данных и мониторинга качества данных.
В этой книге вы найдете, как:
- Установить основные цели по повышению качества данных.
- Организовать и сделать итеративный проект по очистке данных.
- Измерить качество данных по нескольким параметрам, таким как точность, достоверность, полнота, непротиворечивость, актуальность или своевременность.
- Выявить проблемы с качеством данных и своевременно устранить их в будущем.
- Выявить проблемы в конвейерах передачи данных.
Узнайте больше о DQOps на оригинальном сайте.
2024_DQOps_eBook_A_step_by_step_guide_to_improve_data_quality.pdf13.38 MbDownload

Enterprise Data World 2024 - Часть1, моделирование данных

В июне 2024 прошел международный форум EDW 2024, основные моменты, которые обсуждала аудитория, в процентном соотношении были представлены так, как вы видите на картинке.
Самые горячие темы Data Governance и Data Architecture&Modeling.  Подробности можно узнать из статьи Enterprise Data World 2024 Takeaways
Моделирование данных
Основные обсуждаемые топики и выводы, сделанные сообществом на EDW 2024:
1. Практика моделирования данных претерпевает ряд серьезных изменений в связи с некоторыми отраслевыми тенденциями. В какой-то момент искусственный интеллект может стать разработчиком моделей данных. Генеративный ИИ окажет существенное влияние на моделирование данных.
Show more

Subscription levels

Юзверь

$ 1,07 per month
Оставить чаевые автору :)
и получить ранний доступ к статьям и  материалам к ним (скачать можно в течение месяца с момента публикации)

Дата-Котик

$ 4,3 per month
Бессрочный доступ к статьям и материалам к ним

Мастодонт

$ 10,7 per month
Доступ ко всем статьям, материалам и к дополнительному контенту.
Или просто Большое спасибо автору
Go up