DG4All

DG4All 

Data Governance для Чайников

84subscribers

98posts

Showcase

19

Классическое хранилище данных VS Гибридное

Фраза "Data Warehouse против Data Lakehouse" предлагает интересную тему для обсуждения в мире управления данными. В то время как предприятия в течение многих лет использовали традиционные хранилища данных для хранения структурированных и полуструктурированных данных, более современное решение data lakehouse становится все более популярным благодаря своей уникальной способности обрабатывать необработанные данные.
Классические хранилища данных и data lakehouse стали двумя заметными игроками на рынке хранения данных и аналитики. У каждого из них есть свои преимущества и недостатки. Основное различие между этими двумя платформами заключается в том, что в то время как классическое хранилище может обрабатывать только структурированные и полуструктурированные данные, data lakehouse может хранить неограниченное количество как структурированных, так и неструктурированных данных без каких-либо ограничений.
Гибридные хранилища данных отвечают потребностям организаций, которым требуется “большая гибкость в их платформах обработки данных”, которая отсутствует в традиционных архитектурах хранилищ данных. Lakehouse пытаются устранить ограничения присущие как хранилищам данных, так и озерам. Гибридное хранилище также поддерживает аналитику на основе BI, AI и ML.
Распространенным примером такого решения является проект Delta Lake с открытым исходным кодом от Databrick, который предоставляет варианты архитектуры хранилища, соответствующие потребностям вашей организации.
Data Warehouse vs Data Lakehouse: сравнение и преимущества
Традиционные хранилища данных уже давно являются основой для бизнес-аналитики и хранения данных. Однако, в последнее время появился новый подход, который значительно превосходит классический по возможностям глубокого анализа данных - data lakehouse. 
Этот подход объединяет в себе характеристики классического хранилища данных и озера данных и предлагает масштабируемое и гибкое решение. Ключевым преимуществом этого подхода является то, что он позволяет специалистам по обработке данных быстро извлекать информацию из необработанных данных с помощью передовых инструментов анализа и  искусственного интеллекта.
Классические хранилища данных: плюсы
- Хранилище данных позволяет совместно принимать решения за счет сбора, хранения и анализа данных из нескольких источников в одном месте. Классическое хранилище предоставляет предприятиям возможность централизованно анализировать бизнес-данные из различных источников в одном месте.
- Облачные реляционные базы данных предлагают масштабируемые решения для простого управления большими объемами данных. Классические хранилища идеально подходят для всех типов транзакционных данных, которые используются для запросов и составления отчетов.
- Простая, но мощная среда управления данными, подходящая для всех бизнес-пользователей, обеспечивает повышенную безопасность и большую масштабируемость.
Гибридные хранилища данных: плюсы
- Более экономичный вариант по сравнению с традиционными облачными решениями, в том числе за счет возможности хранения огромных массивов сырых данных, поставляемых в режиме реального времени .
- Поддерживают как структурированные, так и неструктурированные данные (необработанные данные) в исходных форматах, позволяя хранить всё централизованно в одном месте.
- Различные варианты хранения метаданных обеспечивают легкий доступ для клиентских приложений.
- Гибридные хранилища данных могут хранить большие объемы необработанных данных в одном месте, получаемых в режиме реального времени с различных устройств ML и IoT.
- The lakehouse поддерживает как традиционные BI, так и более продвинутые аналитические платформы, такие как AI и ML.
- Data lakehouse идеально подходит для анализа логистических цепочек поставок благодаря своим возможностям и инструментам мгновенного прогнозирования.
- Lakehouse замещает потребность в облачной инфраструктуре и обеспечивает гибкость, поддерживая возможность разработки в любых приложениях.
Пример бизнеса, извлекающего выгоду из Data Lakehouse
Одним из примеров того, как компания выиграла от перехода на data lake house, является Walgreens. После того, как Walgreens перенесла свою систему на Delta Lake, компания смогла улучшить свои возможности машинного обучения и работать с большей точностью, используя инструменты визуализации для анализа операций в цепочке поставок.
Относительные недостатки
Классические Хранилища данных: минусы
Классические хранилища данных обычно требуют значительных затрат на настройку и эксплуатацию. Они существуют отдельно от операционных систем, что усложняет процессы обслуживания и развертывания. Контекст данных может быть потерян при передаче их в хранилище, что затрудняет точный анализ информации лицами, принимающими бизнес-решения. Долгосрочное хранение данных с учетом историчности в таких хранилищах обходится дороже, что также является серьезной проблемой.
Существуют потенциальные проблемы с совместимостью или интеграцией существующих систем. В процессе ETL хранилище данных обычно отклоняет некоторые необработанные данные, которые можно было бы использовать для будущего анализа. Из-за своего подхода к работе со структурированными запросами, классическое хранилище данных может быть ограничено в глубоком анализе данных.
Data Lakehouse: минусы
Data lakehouse предназначен для специалистов по обработке данных, а не для среднего бизнес-специалиста. Data lakehouse хранит преобразованные структурированные данные, из-за чего может потребоваться больше усилий и ресурсов для сбора метаданных для задач управления данными.
SQL-клиенты могут быть неэффективны в среде data lakehouse, а  традиционным инструментам BI может быть трудно извлечь значимую информацию из огромного количества неорганизованных и разрозненных данных, поступающих от различных команд или веб-приложений.
Проверка на практике
Классические хранилища данных уже давно используются для обработки и управления огромными объемами данных. Однако основным недостатком использования таких хранилищ является то, что в нем могут храниться только структурированные и полуструктурированные данные. Это может серьезно ограничить типы данных, которые могут быть включены в контур обработки.
Хотя классическое хранилище данных поддерживает различные варианты использования BI и предоставляет “единый источник достоверных данных” для целей аналитики и отчетности, им также может стать трудно управлять по мере появления новых источников данных.
Data lakehouse предлагает новый подход к хранению и обработке данных для глобальных компаний. В отличие от традиционных баз данных SQL или озер данных, этот подход позволяет пользователям хранить все формы необработанных и структурированных данных из различных источников. Это упрощает подключение различных типов информации и использование различных подходов к обработке данных.
С помощью дополнительных аналитических платформ предприятия могут легко понять ключевые различия между своими наборами данных. Преимуществом использования гибридных хранилищ данных является то, что оно может обрабатывать большие объемы данных и хранить различные типы данных без необходимости строгого управления схемой.
Этот подход обеспечивает легкий доступ к данным, которые впоследствии используются для быстрого принятия решений. Кроме того, lakehouse может быть использован как single-view repository для всех видов данных вашей организации.
Теперь реальности гибридного хранилища: задачи BI и отчетности могут стать сложными без наличия соответствующих инструментов для поддержки SQL-запросов. Пользователи часто могут сталкиваться с низким качеством данных и проблемами управляемости данных. Невозможность подтвердить достоверность исследований на lakehouse, затрудняет оценку применимости решений на их основе для потенциальных бизнес-клиентов.
Что лучше – классическое хранилище данных или гибридное - lakehouse? В конечном счете, это зависит от ваших конкретных бизнес-возможностей и задач.
Перевод и адаптация с английского статьи Data Warehouse vs. Data Lakehouse - из топчика лучших статей про данные 2023.
Subscription levels3

Юзверь

$1.42 per month
Оставить чаевые автору :)
и получить ранний доступ к статьям и  материалам к ним (скачать можно в течение месяца с момента публикации)

Дата-Котик

$5.7 per month
Бессрочный доступ к статьям и материалам к ним

Мастодонт

$14.2 per month
Доступ ко всем статьям, материалам и к дополнительному контенту.
Или просто Большое спасибо автору
Go up