EN
DG4All
DG4All
53 subscribers

Толковый словарь Data Governance

Собираем в одном месте термины и определения, которые используются в мире Data Management, описания даны простым языком, есть примеры, ссылки на статьи с подробными описаниями. Раздел постоянно пополняется.
Data-driven - подход в управлении данными, который декларирует использование данных и бизнес-аналитики для принятия всех корпоративных решений.
Data intelligence - это ответственное управление данными, создание внутри организации возможностей для правильной интерпретации данных и правильного их использования (understand and use your data in the right way).
Data lineage - происхождение данных, по-другому можно назвать Data Journey Map: путь данных или карта путешествия данных внутри организации. Data lineage - это процесс или функциональность для отслеживания данных от систем-источников до конечных потребителей, обычно используется для поддержки принятия решений, которые должны основываться на точных и достоверных данных.
Data Management - область знаний, отвечающая за проектирование, сбор, хранение данных и обеспечения к ним доступа с целью анализа и поддержки производительности, эффективности бизнес-процессов организации и процессов принятия решений.
Data Profiling — процесс изучения данных, доступных из существующего источника информации, и сбора статистических данных или информативных сводок об этих данных. Другими словами, процесс профилирования состоит как бы из двух шагов:
- первый - это этап изучения данных, понимания их структуры, взаимосвязей, контекста и возможного применения в дальнейшем анализе, который может включать также процесс извлечения метаданных: информации о технических именах данных, формат, размер, время создания и т.д.;
- второй этап - сбор 
статистических характеристик, таких как характер распределения величин, наличие выбросов, параметры выборки, может включать также процедуры по предварительной оценке качества данных: поиск пропущенных значений, нарушения целостности и бизнес-логики связей между значениями полей и т.п.
Data silos - это разрозненные данные, которые часто возникают в результате того, что разные отделы или команды используют свои собственные системы или инструменты для хранения данных и управления ими. В результате данные в этих разрозненных системах становятся изолированными и недоступными для других подразделений организации.
Data Transformation layer (DTL) - это слой преобразования в хранилище данных, который служит для преобразования и очистки данных перед их загрузкой в основное хранилище. Transformation layer обычно включает в себя различные инструменты и технологии, такие как ETL (извлечение, преобразование и загрузка), которые позволяют извлекать данные из различных источников, преобразовывать их в нужный формат и загружать в основное хранилище. Кроме того, этот слой может включать в себя процессы очистки и нормализации данных, чтобы обеспечить их качество и точность.
Detail Data Storage (DDS) - это метод хранения данных, который используется в системах управления базами данных для оптимизации производительности и эффективности использования ресурсов. DDS позволяет хранить детализированные данные, то есть данные с высокой степенью детализации, что позволяет получать более точные и полезные результаты при выполнении запросов и анализе данных. Этот метод хранения данных отличается от других методов, таких как обобщенное хранение данных (OLAP), где данные хранятся в агрегированном виде для быстрого доступа и анализа. В DDS каждый факт хранится отдельно, что обеспечивает большую гибкость и точность при работе с данными. Кроме того, DDS может использоваться для хранения данных временных рядов, таких как данные о продажах, трафике или погоде, что позволяет анализировать эти данные в динамике и выявлять тенденции и закономерности.
OLAP (online analytical processing) - метод обработки данных, в основе которого лежит использование запросов к данным.OLAP-системы предназначены для анализа данных, который предполагает проведение над данными таких операций как агрегация, структурирование и вычисления с целью предоставления пользователю результата в виде выборок и отчетов.  Аналитические системы не производят новых данных, а лишь обрабатывают данные, полученные из транзакционных систем. В цикле управления хранилищем данных такие системы обычно находятся в слое представления или использования данных (на рисунке Data Access).Для OLAP-системы важна скорость выполнения запросов на больших массивах данных. Пример: данные клиентов могут быть сгруппированы по городам или регионам страны (Запад, Восток, Север и так далее), таким образом, 50 городов, восемь регионов и две страны составят три уровня иерархии с 60-ю членами. Также клиенты могут быть объединены по отношению к продукции; если существуют 250 продуктов по 20 категориям, три группы продукции и три производственных подразделения, то количество агрегатов составит 16 560. При добавлении измерений в схему количество возможных вариантов быстро достигает десятков миллионов и более. Классическим представителем OLAP являются BI-системы.  
OLTP (Online Transaction Processing) - метод обработки данных, в основе которого лежит использование транзакций с данными. OLTP-системы предназначены для ввода, структурированного хранения и обработки информации в режиме реального времени. OLTP-системы - это транзакционные системы для учёта/регистрации операций и действий, которые мы производим при выполнении различных процессов. В цикле управления хранилищем данных такие системы обычно находятся в слое источников данных (на рисунке Data Source).Для OLTP-системы важно успешное завершение транзакций и откат в исходное состояние данных, если транзакция не удалась. Пример: Перевод денег с одного банковского счёта на другой. Если система снимет деньги со счета №1, но не сможет зачислить их насчет №2, то деньги будут потеряны. Очевидно, что если зачислить деньги не удалось, то и снятие денег со счета нужно отменить.  
Raw data storage (RDS) - это способ хранения данных, которые еще не были обработаны или проанализированы. Этот метод используется для сохранения исходных данных в их первоначальном виде, без какой-либо обработки или изменения. RDS обычно используется для хранения больших объемов данных, которые могут быть использованы для различных целей, таких как анализ данных, машинное обучение, прогнозирование и т.д. Он также может использоваться для хранения конфиденциальной информации, такой как персональные данные, которые должны быть защищены от несанкционированного доступа. Одним из преимуществ RDS является то, что он обеспечивает высокую степень безопасности и надежности хранения данных.
Альтернативный ключ (alternate key) - это потенциальный ключ, который не является первичным ключом отношения. Иногда ещё называют Уникальный ключ, Возможный ключ.
Архитектура данных - набор моделей (артефактов), используемых для описания существующего состояния организации с ракурса данных, определения требований к данным, к их интеграции и проектированию приложений, витрин и хранилищ данных в соответствии со стратегией управления данными (DAMA-DMBoK).
Атрибут или свойство - элемент модели данных, с помощью которого мы описываем бизнес-сущность (или просто сущность) и уточняем бизнес-контекст сущности, в котором она работает. Говоря иначе, атрибуты - это свойства или признаки сущностей, с помощью которых мы отличаем их друг от друга. Пример: красный, Иванов, 150 и т.п. Атрибуты помогают нам сделать выбор между, на первый взгляд, одинаковыми сущностями, например, в магазине вы выбираете яблоки по цвету - зеленые или красные, а также сверяетесь с атрибутом Сорт, если хотите, чтобы ваш вкус тоже был удовлетворен на 100%.
Бизнес-ключ (business key) - ключ, созданный на основе данных, которые существуют за пределами вашего процесса, сервиса или базы данных. Другими словами, данные генерируются во внешних системах. Бизнес-ключ известен также как Натуральный ключ (natural key) или Доменный ключ (domain key). Бизнес-ключи важны при информационном обмене между системами как внутренними (внутри организации), так и внешними. Выделение, использование и контроль бизнес-ключей позволяет нам соблюдать такие критерии качества как согласованность, достоверность и непротиворечивость данных. Пример: Номер социального страхования СНИЛС, идентификационный номер налогоплательщика ИНН, Номер и Серия паспорта и т.п.
Бизнес-сущность – это сущность или объект, принадлежащий конкретному бизнес-сервису или процессу, который не может существовать вне этого процесса. Пример: Договор купли-продажи, Рекрутер, Налог с доходов ФЛ и т.п. Если мы ничего не покупаем и не продаем, нам не нужен "Договор купли-продажи", если мы не нанимаем сотрудников - у нас нет "Рекрутера", нет доходов - нет налога :) и т.д.
Владелец данных - роль в организации, которая отвечает за правильность создания данных, за их распространение и качество во вверенной ему области данных.
Внешний ключ (foreign key) — идентификатор другой сущности ID, на которую мы ссылаемся при описании/моделировании данных, проектировании баз данных. Обеспечивает ссылочную целостность - корректную связь между данными, позволяя таким образом поддерживать актуальность информации о сторонних сущностях в любой момент времени. Обязательный элемент физической модели данных, в то время как в концептуальных их не используют, а в логических применяют по необходимости. Пример: для сущности "Продукт" в физической модели может потребоваться создание внешнего ключа ID_ProductGroup - ссылки на сущность "Группы продуктов", если она будет описана отдельным объектом данных ProductGroup, а не простым атрибутом Group_product. Пример модели
Генеративные модели (от англ. generative model) — методы искусственного интеллекта, которые используются для создания новых данных (изображений, музыки, текста и прочих) на основе обучающего датасета, состоящего из большого количества данных.
Данные – это информация, поступающая к нам через информационные системы и приложения, которую оцифровали и используют в рабочих целях или для повседневных нужд. Пример: представьте, что вы собираетесь оформить заказ в интернет-магазине, и приложение просит вас ввести информацию о товарах и адресе доставки, как только информация о ваших намерениях попадет в приложение, через которое вы оформляете заказ, это всё станет данными, и ваш заказ - это тоже данные.
Домен - множество объектов в пределах одного контекста, т.е. некая область с довольно четкими границами или рамками, включает в себя объекты, а также свойства, отношения и функции. Часто говоря Домен, подразумевают Предметную область. Во многих областях знаний Домен является самым верхним рангом или уровнем в группировке или классификации, иначе говоря, верхним уровнем в иерархии. Домен играет большую роль в проектировании и анализе данных. Примеры доменов данных: Человек, Имущество, Календарь. Наборы и состав доменов данных зависит от принятых в организации архитектурных политик и стандартов.
Концепт (сущности) - это объект концептуальной модели данных, является проекцией объекта реального мира и существует не зависимо от деятельности организации. Концепт - это домен данных, который является родительской сущностью для прочих объектов, наследующих от него поведение и основные свойства (характеристики). Базовые концепты типизируют и организуют бизнес-сущности. Базовые Концепты выделяются внутри супер-доменов данных. Пример: Базовый концепт - Заказ, подтипы (бизнес-сущности) - Заказ на продажу, Заказ на покупку.
Концептуальная модель данных (CDM - Conceptual Data Model) - высокоуровневое представление предметной области, содержит обычно только бизнес-критичные бизнес-сущности, связи и зависимости между ними. Описание бизнес-сущностей может быть представлено текстом или набором бизнес-значимых атрибутов. Визуализация концептуальной модели данных обычно производится в виде ER-диаграммы (Entity-Relationship). Нотация и уровень абстракции/детализации концептуальной модели зависит от принятых в организации норм и стандартов моделирования данных. Пример модели.
Корпоративная модель данных (EDM - Enterprise Data Model) - набор артефактов (диаграммы, схемы, таблицы, каталоги), дающий представление о структуре и доменах данных, которыми оперирует организация, их связях и отношениях между различными бизнес-сущностями, а также жизненном цикле данных. Для поддержания корпоративной модели данных в актуальном состоянии обычно требуется наличие инструмента Архитектурный репозиторий данных. Корпоративная модель данных может содержать концептуальные, логические и физические модели данных, диаграммы потоков данных и т.п. Состав и набор артефактов зависит от принятой в компании политики управления данными.
Логическая модель данных (LDM - Logical Data Model) - это модель данных определенной предметной области, описанная в терминах бизнеса и не зависящая от конкретной системы управления базами данных или технологии хранения. Обычно содержит визуальное представление в виде схем или таблиц бизнес-сущностей, их атрибутов и связей между ними. Пример модели.
Метаданные (Metadata) - это данные о данных или информация о содержимом или объекте в информационной системе. Например, технические имена таблиц и полей в базе данных - это метаданные о той информации, которая содержится в этих таблицах и полях. Метаданные раскрывают сведения о признаках и свойствах, характеризующих какие-либо сущности, позволяющие автоматически искать и управлять ими в больших информационных потоках.  
Метаданные могут описывать не только данные как таковые (базы данных, элементы данных, модели данных и т. д.), но и представляемые ими объекты (бизнес-процессы, системы и приложения, элементы ИТ-инфраструктуры и т. п.), а также связи (отношения) между данными
и объектами.
Пример: поле СlientID - содержит идентификаторы клиентов, ClientName - имена клиентов.
Метрика (Индикатор, Показатель) качества данных - критерий оценки достижения требуемого уровня качества данных, помогает определить можно ли доверять данным. Метрика качества показывает насколько данные соответствуют заявленным требованиям к качеству и обладают ли они нужными характеристиками качества для выполнения операций, анализа и принятия решений.
Модель данных – это обобщенное представление об области знаний с ракурса данных, которыми она оперирует. Основным элементом модели данных является сущность. Модель данных может быть представлена в виде схемы или таблицы, а также связями между ними. Пример: модель данных сущности Человек может быть выражена через следующий набор атрибутов - Фамилия, Имя, Отчество, Дата рождения.
Основные данные (master data) - экземпляры ключевых бизнес-сущностей, участвующие в основных бизнес-процессах или сервисах компании; основные данные являются ключевым элементом бизнес-транзакций и определяют бизнес-контекст, также являются предметом бизнес-анализа в организации. Важным аспектом в управлении основными данными является организация процесса их идентификации на всём ИТ-ландшафте с целью обеспечения качества данных, а именно достоверности и согласованности. Пример: основными данными для компании, занимающейся продажей обуви в розницу, будут экземпляры таких бизнес-сущностей как Поставщик, Товар, Чек, Заказ и т.п.
Первичный ключ (primary key) — идентификатор сущности ID, выбранный в качестве основного ключа (или ключа по умолчанию) в процессе моделирования сущности или при проектировании базы данных. Обеспечивает уникальность экземпляров сущности, отсутствие дублей. Обязательный элемент физической модели данных, в то время как в концептуальных их не используют, а в логических применяют по необходимости. Пример: сущность "Продукт" в концептуальной модели будет выражена объектом Product; в логической модели объектом Product с набором атрибутов: Name_product, Group_product, FullName_product, Cost_product, Price_product; в физической модели будет добавлен атрибут ID_product - первичный ключ для продукта. Пример модели
Потенциальный ключ (candidate key) - в реляционной модели данных подмножество атрибутов отношения, удовлетворяющее требованиям уникальности и несократимости* (минимальности). Пример: экземпляры бизнес-сущности "Физическое лицо" мы можем идентифицировать при помощи нескольких разных атрибутов: номер СНИЛС, номер паспорта, номер телефона. Все эти атрибуты - потенциальные ключи.
Профилирование данных - смотри Data Profiling.
Семантический слой (semantic layer) - это понятие, которое относится к области компьютерных наук и искусственного интеллекта. Это уровень или компонент в программном обеспечении, который содержит информацию о значении и взаимосвязи между различными элементами в компьютерной системе. Пример реализации в хранилище
Слой сырых данных (row data) - data storage, хранилище необработанных данных, загруженных из источников в том виде, в котором они там находятся или с минимальной предобработкой.
Справочные данные (reference data) - экземпляры бизнес-сущностей, позволяющие описывать, дополнять и структурировать основные данные, являясь их атрибутами. Наборы значений таких справочников достаточно редко или совсем не изменяются на длительных промежутках времени. Глобально делятся на: 1 - нормативно-справочную информацию, которая является отраслевыми, региональными и любыми другими стандартами, которые мы получаем из внешних источников в виде наборов значений и кодов; 2 - общие справочники организации, регулируемые внутренними положениями и регламентами; 3 - пользовательские наборы данных, облегчающие бизнес-анализ и помогающие выполнять операционные задачи в рамках отдельных подразделений и функций. Пример: 1. ОКВЭД - Общероссийский классификатор видов экономической деятельности; ФИАС - Федеральная информационная адресная система; Спецификация кодов валют по ISO; 2. Справочник категорий товаров; Организационная структура; ЦФО - центры финансовой ответственности; 3. Типы проектов; Статусы задач; Направления обучения.
Сущность (entity)– это некоторый объект реального мира, который остается неизменным и постоянным под влиянием различных обстоятельств и воздействий на него. С ракурса данных, сущность - это оцифрованный объект реального мира, описание смысла сущности может передаваться простым текстом или через перечисление её признаков - атрибутов. Пример: Сущности - Договор, Человек, Автомобиль; Описание - Человек имеет Фамилию, Имя, Дату рождения.
Физическая модель данных (PDM - Physical Data Model) - это представление структуры данных, реализованной или предназначенной для реализации в системе управления базами данных. PDM помогает инженерам разрабатывать и поддерживать архитектуру данных. Один и тот же сервис/процесс может быть реализован по-разному в различных приложениях, т.е. у него может быть несколько отличающихся друг от друга физических моделей данных, опирающихся на одну логическую модель. Пример модели.
Характеристика качества данных - свойство данных отвечать требованиям достоверности и пригодности для использования в конкретной цели или задаче. Наиболее часто используют такие характеристики как полнота, точность, актуальность, разумность, согласованность, уникальность и доступность данных. Данные, соответствующие перечисленным выше характеристикам, считаются качественными. На основании заявленных характеристик качества разрабатывают требования к качеству данных.
Экземпляр сущности (entity instances) - реальные значения и данные, которые появляются при выполнении бизнес-процессов, обычно регистрируются посредством проведения бизнес-транзакций. Пример: для бизнес-сущности Товар экземплярами будут: молоко, яйца, сахар и т.п.

Subscription levels

Юзверь

$ 1,07 per month
Оставить чаевые автору :)
и получить ранний доступ к статьям и  материалам к ним (скачать можно в течение месяца с момента публикации)

Дата-Котик

$ 4,3 per month
Бессрочный доступ к статьям и материалам к ним

Мастодонт

$ 10,7 per month
Доступ ко всем статьям, материалам и к дополнительному контенту.
Или просто Большое спасибо автору
Go up