Данные далёкие и близкие
Основной задачей Data Governance является руководство процессами Управления данными. Прежде чем начать чем-то управлять, хорошо бы разобраться в предмете управления и понять: а собственно о чем речь?
Про данные впервые заговорили, когда появились информационные системы. А это было ооочень давно - в 50-хх годах прошлого столетия! С данными в ИТ-системах работали ещё наши бабушки и дедушки. Но это не приближает нас к цели – понять что же такое данные. Представьте себя на работе, или дома за компьютером, или просто с телефоном в руках, вы заходите в программу или открываете приложение, перед вами стоят какие-то задачи. Какие вопросы в этот момент крутятся у вас в голове: Что мне нужно ввести, чтобы создать документ (заказ)? Какие отчеты я могу посмотреть? Как рассчитывается результат? Что я должен отправить в письме/сообщении? Это всё вопросы про данные. Эти же вопросы можно задать немного по-другому и смысл не поменяется:
Какие данные мне нужно ввести, чтобы создать документ?
Какие данные я могу посмотреть в отчете?
На основе каких данных рассчитывается результат?
Какие данные нужно отправить?
Теперь мы можем ответить на вопрос -
Что такое данные?
Данные – это информация, которую мы гоняем по компьютерным сетям из одного электронного устройства в другое, или храним у себя под рукой на компьютере, телефоне и т.п. А что такое информация? А это любое знание, которым мы делимся, передаем голосом, жестами, текстом или видео. Не важно как мы это делаем, суть информации в том, что вы разделяете её с кем-то, передаёте куда-то и кому-то. Пока вы держите язык за зубами и никому ничего не рассказываете и не передаёте – это просто знания, которыми вы владеете. И они могут быть бесценны :) И тут мы, слегка забегая вперёд, затронули тему монетизации данных и знаний вообще. Но про это в другой статье, а пока вернемся к сути данных.
Итак, как по мне, информация и данные сегодня так ничтожно различаются, что можно сказать, что данные – это и есть информация, а информация – это данные. Хотя формально данные – это только то, что было преобразовано в цифровой формат. И с этого ракурса Информационная архитектура является учением более глобальным и всеобъемлющим нежели Дата-архитектура (да поймут меня коллеги-архитекторы).
Какие бывают данные?
Очень разные, очень много, делят их по совершенно разным признакам. Про наиболее важное и часто встречающееся расскажу, про какие-то отдельные виды рассмотрим подробнее, но не сейчас.
По уровню безопасности или правовому статусу данные бывают:
Персональные (ПДН)
Конфиденциальные
Коммерческая тайна
Общедоступные
По способу организации хранения:
Структурированные: хранятся в специальных программах - реляционных базах данных, в которых эти данные легко искать, анализировать и строить по ним отчеты; с такими данными вы часто сталкиваетесь на работе.
Неструктурированные – и это порядка 80%-90% всей информации, как правило, это файлы, содержащие тексты с датами, картинками, видео и т.п по любой теме; именно такие данные мы гуглим в интернете.
По форматам – и это наиболее часто встречающееся определение типа данных (привожу только основные):
Дата
Текст
Цифра
Логический тип
Где живут данные?
Конечно, в информационных системах, а если быть точнее, в базах данных, специальных хранилищах, предназначенных для их складирования и последующего использования. Очень важно понимать, будете ли вы пользоваться данными: строить отчеты, отправлять исторические выгрузки по запросам коллег или сторонних организаций, анализировать с целью повысить эффективность процессов и продуктов. Если данных много (сотни терабайт или даже петабайты), то вам нужно строить хранилище данных :), но если данных у вас немного, то сойдет и встроенная в приложение система отчетности.
Если вы не собираетесь активно пользоваться данными, то лучше положить их в архив, для этого тоже есть специальные программы и оборудование. В архивы, например, складывают данные о сотрудниках, которые по закону необходимо хранить до 50-ти лет, но совершенно не обязательно, что кто-то захочет ими воспользоваться, поэтому они могут спокойно пролежать в архиве нетронутыми, а по истечении срока хранения будут просто-напросто уничтожены – их удалят.
Как найти и использовать данные?
Раньше мы не обращали внимания на данные, потому что пользовались ими для решения локальных задач и они были сильно разрозненными. Другими словами, нам были нужны только данные, которые и так были у нас под рукой и только в том виде, в котором мы работали с ними здесь и сейчас. Но когда началась эпоха цифровизации, данные буквально заполонили всё вокруг: теперь нас окружают озера и океаны разнообразных данных! На работе мы сталкиваемся с большими массивами данных в разных ИТ-системах, находясь дома мы ищем данные в интернете, перелопачивая огромные объемы контента, непрерывно отправляем сообщения друзьям и близким – это тоже данные. Мы постоянно используем данные в нашей повседневной жизни. Отсюда вывод: данные не нужно искать, они вокруг нас. Но если вы хотите воспользоваться какими-то определенными данными, то придётся постараться, чтобы найти именно то, что вам нужно. Возможно, вам даже потребуются специальные системы для аналитики данных – BI-инструменты (Business Intelligence tools).
Итак, подытожим про данные. В широком смысле слова данные – это всё что нас с вами окружает в цифровом пространстве. Чтобы быстро сориентироваться в таких объемах информации, нужны специализированные инструменты управления данными, правила организации данных и их контроль. Наука о том как правильно осуществить сбор, хранение и использование данных – это Data Management. А помогает организовать данные, контролировать их качество и внедрить все стандарты, которые всё это поддерживают - Руководство данными или Data Governance. Подробнее можно почитать в книге DAMA-DMBOK.
Все новости канала можно получать в телеграм: https://t.me/datagovernance4all