Data Lineage - основные функции и применение
Происхождение данных можно по-другому назвать Data Journey Map - путь данных или карта путешествия данных внутри организации. Инструменты, позволяющие строить Data lineage для отслеживания происхождения данных, значительно упрощают процесс управления данными. Попытки сформировать карты происхождения данных вручную являются утомительными и отнимают много времени.
Карта происхождения данных должна содержать информацию о том, как данные были созданы, обработаны, преобразованы и переданы, и обычно используется для поддержки принятия решений, которые должны основываться на точных и достоверных данных. Для современных компаний Data lineage является важной составляющей в цепочке принятия решений. Однако отслеживание потока данных от источника к потребителю может быть очень сложным процессом.
Доверие к данным должно быть основано на понимании того, откуда они получены и как они были преобразованы и обработаны. Data lineage позволяет организациям видеть, как использовались наборы данных и как они изменялись. Такое знание позволяет организациям лучше управлять данными и исправлять любые ошибки в их первоисточнике. Наличие практик управления данными через карты происхождения данных позволяет компаниям поддерживать качество своих данных на улучшенном уровне.
Принятие правильных решений, основанных на данных (Data-driven подход), требует доверия к этим данным.
Понимание различных вариантов использования карт происхождения данных, функциональных требований к работе инструментов data lineage может быть весьма полезным перед наймом подрядчика для разработки инструмента data lineage или приобретением программного обеспечения. Выбор неправильного программного обеспечения для data lineage может привести к потере времени и денег, а в конечном итоге и к повторной покупке программного обеспечения, более подходящего под нужды организации.
Data Lineage процесс и его функции
Data lineage процесс включает в себя множество функций. Современные компании все больше полагаются на информацию в режиме реального времени для улучшения своих процессов, операций и взаимоотношений с клиентами, но эта информация зависит от правильности трактования данных. Существует множество способов улучшения рабочих процессов, которые менеджеры и технические специалисты могут обнаружить и применить благодаря инструменту Data lineage.
Автоматизация: Составление карты происхождения данных - это автоматизированный процесс. Отслеживать и визуализировать data lineage вручную просто нереально по сегодняшним стандартам эффективности. Автоматизация также значительно упрощает соблюдение нормативных требований (GDPR, BCBS, IRB и т.д.), отслеживая распространение таких данных как личная информация (ПДН) или коммерческая тайна, что позволяет присвоить им соответствующий уровень безопасности - статус конфиденциальных или персональных данных - вне зависимости от места использования (ИТ-ландшафта).
Разметка данных или тегирование: Любые данные, вне зависимости, были они преобразованы или перемещены, помечаются тегами. Затем теги отслеживаются от начала до конца маршрута, обеспечивая прозрачность происхождения данных. Однако для этого процесса требуется “consistent transformation tool” - инструмент, который контролирует все перемещения и изменения данных на пути их жизненного цикла. (Важна согласованность этого инструмента с вашей эко-системой данных – выберите лучший инструмент, подходящий для вашей системы.)
Синтаксический разбор или парсинг: Эта функция отслеживает жизненный цикл данных, фиксируя точки, в которых они изменяются - обогащаются, форматируются или перемещаются. Этот способ позволяет фиксировать изменения данных в различных ИТ- системах. Однако подобный анализ требует хорошего понимания инструментов и языков программирования, используемых на протяжении всего жизненного цикла данных. Эта функция data lineage в значительной степени полагается на распознавание логики, используемой при обработке данных (процесс анализа символов и строк кода).
Описание источников метаданных: Инструменты data lineage используют метаданные для визуализации потока данных, что позволяет пользователям видеть, как данные перемещаются, преобразуются и используются во всей организации. За автоматизированный сбор метаданных с источников отвечает эта функция, которая позволяет подключаться к базам данных ИТ-систем, считывать их структуры и метаданные, а также может использоваться для выявления причин ошибок и расхождений в наборах данных.
Происхождение на основе шаблонов: Вместо того, чтобы анализировать программный код, эта функция data lineage хранит и анализирует шаблоны данных. Этот метод опирается на знание метаданных при разработке шаблонов. Основным преимуществом этого метода является отсутствие необходимости понимать различные языки программирования, используемые для обработки данных в ИТ-системах. Отслеживаются данные, а не языковые алгоритмы.
Далее рассмотрим варианты использования различных функций data lineage, которые применяются при обработке данных и помогают организациям улучшать их качество.
Для чего Data Lineage организациям
Нет сомнений, что понимание происхождения данных является залогом получения высококачественных данных, давайте рассмотрим несколько задач, которые решает инструмент data lineage. Каждый вариант использования data lineage приближает нас к заветной цели - улучшение качества данных в организации.
Анализ проблем с данными:Источник проблем с данными можно быстро и эффективно отследить, используя карты происхождения данных. Data lineage помогает выявлять проблемы с данными, предоставляя информацию об их перемещении по ИТ-ландшафту организации. Этот процесс может быть особенно полезен в сложных информационных средах, использующих данные, собранные из различных ИТ-систем. Data lineage также может хранить историю изменения данных с течением времени, обнаруживая аномалии или закономерности, которые могут указывать на проблему.)
Удаление данных: Data lineage также можно использовать для избавления от устаревших или неактуальных данных, хранящихся в информационных системах, используя функции архивирования или удаления. Это может повысить общую производительность информационной системы за счет уменьшения объема хранимых данных.
Соответствие требованиям: Data lineage может использоваться для обеспечения соответствия требованиям к данным, улучшения управления рисками и обеспечения того, чтобы данные обрабатывались и хранились с использованием основных принципов Data Governance.
Моделирование данных:Организации могут использовать data lineage для целей моделирования данных. Он может предоставить информацию о различных компонентах данных и их связях, необходимых для визуального представления и проектирования. Взаимосвязи между данными могут быть перенесены в модель, чтобы показать зависимости, присутствующие во всей экосистеме данных.
Качество данных:Данные постоянно меняются. Data lineage предоставляет подробную информацию о жизненном цикле и местоположении источников данных. Он отслеживает данные от самого источника и позволяет бизнесу контролировать процесс преобразования своих данных и их достоверность.
Обнаружение ошибок:Data lineage может быть использован для выявления неверных предположений о данных, определения мест возникновения ошибок и предоставления возможности их исправить.
Impact анализ: Data lineage можно использовать с целью обнаружения бизнес-критичных данных, например, узких или высоконагруженных мест обработки данных. Также можно увидеть как те или иные изменения в данных повлияют на их жизненный цикл.
Миграция данных:Когда данные перемещаются в новую систему хранения, организации используют процесс миграции данных, чтобы выяснить источники данных и их жизненные циклы. Поскольку data lineage предоставляет информацию о всех перемещениях данных, его можно использовать как вспомогательный инструмент на этапе планирования миграции и проектирования нового хранилища.
Эффективный DataOps: Лучшее понимание происхождения данных помогает оптимизировать операции с данными и избегать ошибок.
Примеры использования Data Lineage в реальном мире
Некоторые крупные компании, такие как Airbnb, Netflix, UBS, Slack и Postman, в настоящее время используют data lineage – и повышают эффективность своих процессов и увеличивают прибыль. Эти компании провели исследования и решили, что стоит установить программное обеспечение data lineage. Им требовались достоверные и надежные данные для принятия лучших решений. Data lineage обеспечивает прозрачность, необходимую для эффективной работы с данными в процессах миграции, обновления информационных систем и исправления ошибок, обеспечивая целостность данных на протяжении всего жизненного цикла.
Направление Data lineage является довольно новым и, как следствие, все еще немного дорогостоящим. Ряд крупных предприятий приняли решение разрабатывать собственные программные продукты Data lineage.
Одним из реальных примеров использования data lineage является British Airways и ее реакция на утечку данных. В сентябре 2018 года British Airways столкнулась с утечкой данных, затронувшей 380 000 клиентов, касающихся их кредитных карт и личной информации. Используя data lineage, они смогли отследить проблему вплоть до вредоносного скрипта на своем веб-сайте. Проследив цепочку данных до ошибочного сценария, они смогли быстро выявить и устранить проблему.
Другим примером использования Data lineage в реальном мире является Air France, которая столкнулась с проблемами обработки данных. Их бизнес вырос до такой степени, что они обрабатывали более 2,5 миллионов новых посетителей на своем веб-сайте, и отслеживать такие массивы данных, поступающие из различных баз данных, стало очень сложно. Air France в партнерстве с Talend разработала новую систему data lineage, которая позволила компании и ее специалистам по управлению данными предоставлять персонализированную рекламу и обновления в режиме реального времени. Они сделали это, не нарушая правил GDPR.
Перевод и адаптация оригинальной статьи: Data Lineage Use Cases by Keith D. Foote on June 13, 2023
Статья из ТОП-10 канала "Data Governance для Чайников" в 2023г.