Бизнес работает с огромным объемом информации — и ее количество только увеличивается. По данным аналитической компании IDG за 2023 год, в среднем рост составляет около 63% в месяц. Чем данных больше, тем сложнее и дороже их хранить. И обойтись без них нельзя — это бесценный актив для бизнеса, который помогает совершенствовать имеющиеся продукты и создавать новые, улучшать сервис, оптимизировать расходы. И тут на помощь может прийти технология Data Lake. Рассказываем, что такое озеро данных и чем оно полезно компаниям.
Что такое Data Lake
Data Lake или озеро данных — это большой репозиторий «сырых» данных, которые затем используются для задач бизнеса. Рассчитано на то, чтобы получать, сохранять и обрабатывать большие объемы регулярно поступающей информации. При попадании в озеро данные не структурируются и не преобразуются, они там только хранятся.
Отсутствие структуры — важная отличительная черта и важное преимущество Data Lake, потому что по разным оценкам около 50-80% данных в компаниях не структурированы, и так можно упростить работу с ними.
Как работает озеро данных, в общих чертах:
- Данные где-то собираются. Например, CRM-система записывает действия клиента на сайте компании.
- Заранее продуманным маршрутом информация поступает на сервера Data Lake.
- Система отмечает время поступления данных, их происхождение, тип и структуру.
- Данные хранятся или бессрочно или какой-то заранее указанный промежуток времени, а затем, после применения или из-за потери актуальности, их удаляют.
- По мере необходимости часть данных извлекают и используют.
Источник информации может быть любым — CRM- или ERP-системы, банковские сервисы, датчики и системы наблюдения, умные устройства, в общем, все то, что может собирать данные и передавать их. Форматы озеро данных также никак не ограничивает — медиа-файлы, текстовые и pdf документы, таблицы, лог-файлы и еще десятки других вариантов.
С содержимым можно работать прямо в пределах озера или преобразовывать и извлекать, использовать для бизнес-аналитики и machine learning, структурировать и сохранять в других типах репозиториев.
Плюсы и минусы Data Lake
Экономия ресурсов на наполнении, но дополнительные затраты при анализе — так вкратце можно описать минусы и плюсы озера данных. Разберём их подробнее.
Преимущества
Технология Data Lake (озеро данных) дает возможность оперативно и сравнительно недорого собирать много разнообразных данных — и это ее важное преимущество. Данные не надо обрабатывать на входе, что сулит бизнесу существенную экономию.
Кроме того, при наполнении озера больших данных не обязательно сразу точно представлять, как именно будут использована информация. Это полезно, в том числе, если бизнес не очень представляет, как применить конкретные данные в текущий момент или не имеет времени либо ресурсов для их сиюминутной обработки. Информацию можно сохранить — и использовать позднее.
Для больших компаний технология удобна тем, что позволяет использовать единое хранилище для всей информации организации. Это полезно, когда отдельным подразделениям надо работать вместе.
Благодаря сравнительно низкой стоимости и относительно простой архитектуре озеро данных (Data Lake) легко масштабировать. Это позволяет при необходимости хранить там петабайты информации (1 петабайт = 1024 терабайт).
Недостатки
Большие объемы неструктурированных данных сложнее анализировать. А без хорошего управления содержимым Data Lake озеро легко «захламляется» неконтролируемыми и зачастую бесполезными данными и превращается в то, что называют Data Swamp, или болото данных.
Области и сценарии применения Data Lake
Data Lake полезны всем компаниям, которые планируют анализировать большие данные в различных областях.
- Торговля и сфера услуг. Data Lake позволяет хранить и обрабатывать самую разнообразную и разрозненную информацию: наличие товаров, данные о продажах, данные о поведении клиентов (действия на сайте, активность в соцсетях бренда, взаимодействие со службой поддержки, частота покупок). Потом информация используется в целях аналитики и прогнозирования будущего поведения клиентов.
- Организации, занимающиеся финансами, страхованием, логистикой, закупками. Благодаря Data Lake компании могут собирать и обрабатывать огромные объемы данных, оперативно анализировать ситуацию на рынке и на местности, создавать персональные предложения и так далее.
- Промышленность. Data Lake помогают создавать прогнозные модели для разведки месторождений, управления поставками и технического обслуживания.
- Медицина. Коллекция данных о пациентах, их диагнозах и способах лечения может быть использована для автоматизации диагностики.
- Телекоммуникации. Озера данных (Data Lakes) часто применяются для хранения и анализа информации о клиентах, трафике, устройствах и других аспектах, которые влияют на бизнес телекоммуникационных компаний.
Отчет 2017 года «Angling for insight in today’s Data Lake» американской исследовательской компании Aberdeen показал, что, внедрившие Data Lake компании демонстрируют повышение выручки на 9% в сравнении с конкурентами. Такие компании также отметили улучшение операционной эффективности, повышение работы с данными для разных подразделений организации, снижение расходов на работу с Big Data и разгрузку баз и хранилищ данных.
С тех пор технологии работы с данными в Data Lake стали лучше, и выгода от его использования тоже растет. Так что можно смело утверждать, что озера данных будут полезны всем компаниям, которые хотят зарабатывать больше, применяя то, что у них уже есть — собственные данные.
Вот примеры сценариев использования технологии озер данных в бизнесе:
- Машинное обучение. Технологии ИИ для обучения требуют огромных массивов данных. Data Lake обеспечивают не только возможность хранения этих данных, но и наличие разнородных обработанных и необработанных данных для создания сложных аналитических моделей.
- Оперативная аналитика. Озера данных рассчитаны на работу с большими потоками данных единовременно и могут обеспечить анализ и обработку информации в реальном времени. Эта возможность незаменима, например, в финансовой сфере, где котировки ценных бумаг и курсы валют меняются очень быстро, или в логистике и перевозках для оптимизации маршрутов и цен.
- Расширенная и предиктивная аналитика. Это анализ текущих и исторических данных для прогнозирования будущих событий. Например, розничный бизнес может использовать данные о прошлых продажах, чтобы предсказать, какие товары будут пользоваться спросом в следующем сезоне, отели могут планировать сезонную загрузку, перевозчики — грузовую и пассажирскую нагрузку. Имея прогноз, компании могут управлять запасами товаров, нагрузкой на персонал и планировать маркетинговые стратегии.
- Персонализация клиентского опыта. Имея в своем распоряжении большие объемы данных, компании могут изучать индивидуальное поведение и предпочтения клиентов и предлагать индивидуальные рекомендации. По этому принципу, например, платформы потокового вещания предлагают сериалы, фильмы и музыку, основываясь на прошлом выборе пользователей, интернет-магазины рекомендуют товары, банки предлагают финансовые и страховые продукты.
- IoT-аналитика. Датчики умных устройств в реальном времени собирают огромные объемы данных. Data Lake способны собирать и обрабатывать эти данные, чтобы потом использовать для персонализации пользовательского опыта, доработки и создания новых продуктов, прогнозирования сервисного обслуживания сложной техники.
- Анализ настроений пользователей. Озера данных позволяют собирать и анализировать обзоры и отзывы клиентов в разных форматах и упоминания бренда онлайн. Можно понять, как пользователи воспринимают компанию и ее продукты, не проводя опросы.
- Длительное дешевое хранение данных. Государственные органы, а также частные компании и ИП по закону обязаны хранить кадровые, налоговые и бухгалтерские документы от года до нескольких десятков лет в зависимости от типа документа. Можно использовать Data Lake (озеро данных) как инструмент для доступного хранения электронных версий этих документов и при необходимости работы с ними.
Озеро данных, база данных, хранилище данных и другие смежные понятия — чем отличаются, как не путать
Data Lake, базы, хранилища и витрины данных — все они хранят информацию. Но устроены и функционируют они по-разному. Вот ключевые критерии, по которым различаются эти понятия.
Сценарии использования. Озера данных подходят для масштабной аналитики и машинного обучения. Также там могут храниться данные, которые пригодятся в будущем. Базы данных оптимальны для хранения свежей и зачастую критически важной информации, которая используется в повседневной работе бизнеса. Как правило, они рассчитаны на простые транзакционные запросы. Хранилища обычно включают исторические данные для анализа тенденций и рассчитаны на сложные аналитические запросы.
Наличие структуры. Lake (озеро) не имеет структуры, там хранятся неупорядоченные и несистематизированные файлы. Информацию структурируют уже на выходе, когда нужно извлечь и использовать ее. И это не влияет на исходные данные в озере — они остаются неупорядоченными для удобства хранения и повторного использования.
В базе данные четко структурированы. В хранилищах и витринах — небольших хранилищах, ориентированных на отделы компаний и содержащие только релевантную для них информацию — также обычно структурированные данные.
Актуальность и полезность содержимого. Информация в озере не обязательно востребована сейчас, она может накапливаться «на будущее». Данные в базе актуальны и нужны компании здесь и сейчас. Остальное отфильтровывается и теряется. Хранилище больше ориентировано на «исторические» данные, которые затем применяются в аналитике.
Типы данных. Не нужно определять заранее, из каких форматов файлов озеро данных состоит. Там можно хранить буквально все, не перестраивая архитектуру репозитория. В базах и хранилищах форматы файлов определены заранее. Если их нужно изменить — все придется перестраивать.
Стоимость. Озера данных значительно дешевле. Основная статья расходов — сервера для хранения информации. Базы и хранилища данных стоят дороже, особенно когда информации много. Требуется сложная дорогостоящая инфраструктура и фильтрация входящего потока данных.
Удобство работы. Данные из озера перед использованием надо обработать — и для этого нужны специалисты в области Data Science. Благодаря наличию структуры и системы с информацией в базах и хранилищах проще работать рядовым сотрудникам компании.
В начале 2020-х также появилась гибридная архитектура Data Lake house. Она сочетает преимущества озера данных и хранилища данных, поддерживая хранение неструктурированной информации разных форматов, предлагая более удобное управление данными и еще лучшие форматы машинного обучения. Но Data Lakehouse еще предстоит развитие и распространение.
Резюме
- Data Lake — это большой репозиторий необработанных и неструктурированных данных. Рассчитано на то, чтобы получать, сохранять и обрабатывать большие объемы регулярно поступающей информации. Данные могут быть в любом формате и из любых источников.
- Такое озеро данных позволяет быстро и сравнительно недорого собирать большие объемы разнообразных данных, в том числе накапливать информацию «на будущее».
- Data Lakes полезны всем компаниям, которые работают с большими данными, например, в сферах торговли и услуг, финансов и страхования, логистики, закупок, промышленности, здравоохранения, телекоммуникации.
- Озера данных в бизнесе применимы в основном для машинного обучения, разных форм аналитики, анализа пользовательского поведения и настроения и персонализации клиентского опыта.
- От баз и хранилищ данных озера отличаются, прежде всего, отсутствием структуры и гибкостью форматов используемых данных. Они также обходятся дешевле и легче масштабируются.
Комментарии к статье
Комментарии: 0