当前位置:首页 > 科技  > 数码

到底是什么是“数据湖仓”

来源: 责编: 时间:2025-04-07 10:33:56 133观看
导读 之前写了数据仓库和数据湖:写给小白的“数据仓库”科普到底什么是“数据湖”?今天是大数据专题的最后一篇,来讲讲数据湖仓。█为什么会有“数据湖仓”?前面我们提到,数据仓库出现于 1990 年代,主要基于 MPP(Massivel

之前写了数据仓库和数据湖:e3U28资讯网——每日最新资讯28at.com

写给小白的“数据仓库”科普e3U28资讯网——每日最新资讯28at.com

到底什么是“数据湖”?e3U28资讯网——每日最新资讯28at.com

今天是大数据专题的最后一篇,来讲讲数据湖仓。e3U28资讯网——每日最新资讯28at.com

█为什么会有“数据湖仓”?

前面我们提到,数据仓库出现于 1990 年代,主要基于 MPP(Massively Parallel Processing,大规模并行处理)或者关系型数据库实现,用于企业做数据存储、处理和分析,发展数据看板、BI(商业智能)等用途。e3U28资讯网——每日最新资讯28at.com

而数据湖,出现于 2010 年代,主要基于大数据技术(Hadoop 等)生态,用于支撑多样化的数据存储,实时性更强,适合满足批处理、流式计算等业务场景。e3U28资讯网——每日最新资讯28at.com

e3U28资讯网——每日最新资讯28at.com

数据仓库的特点是,先做数据处理,搞得规范整齐之后,存起来。用的时候就直接用。它主要存的是结构化(行列)数据。e3U28资讯网——每日最新资讯28at.com

数据湖的特点是,什么数据(结构化、非结构化、半结构化)都能存,不做预处理,先全部都存起来,等要用的时候,再处理。e3U28资讯网——每日最新资讯28at.com

e3U28资讯网——每日最新资讯28at.com

e3U28资讯网——每日最新资讯28at.com

两种技术,各有优缺点:e3U28资讯网——每日最新资讯28at.com

e3U28资讯网——每日最新资讯28at.com

从成本的角度来看,数据湖的起步成本很低,但随着数据体量的增大,成本会迅速飙升。而数据仓库恰好相反,前期建设开支很大,后期成本增加趋缓。e3U28资讯网——每日最新资讯28at.com

e3U28资讯网——每日最新资讯28at.com

数据仓库和数据湖,都是基于数据进行价值挖掘,只是侧重点不同。对于企业来说,两者都有价值,所以,会选择同时建设。e3U28资讯网——每日最新资讯28at.com

很显然,这不仅导致了高昂的建设投资成本,也使得数据存在冗余和重复。e3U28资讯网——每日最新资讯28at.com

基于以上种种原因,业界就开始思考:是不是可以将数据仓库和数据湖进行结合,充分发挥两者的优势,弥补各自的缺陷呢?e3U28资讯网——每日最新资讯28at.com

e3U28资讯网——每日最新资讯28at.com

于是,就有一些服务商,开始研究如何将两者的能力进行“打通”。e3U28资讯网——每日最新资讯28at.com

主要思路包括两种:一种是让数据仓库支持对数据湖的访问。还有一种,是让数据湖具备数据仓库的一些能力。e3U28资讯网——每日最新资讯28at.com

前者比较有代表性的,是 2017 年 Redshift 推出的 Redshift Spectrum。它支持 Redsift 数据仓库用户访问 AWS S3 数据湖的数据。e3U28资讯网——每日最新资讯28at.com

后者有代表性的比较多,包括 2017 年 Hortonworks 孵化出的 Apache Atlas 和 Ranger 项目,2018 年 Nexflix 开源的内部增强版本元数据服务系统 Iceberg。2018-2019 年,Uber 和 Databricks 相继推出了 Apache Hudi 和 DeltaLake,推出增量文件格式,用以支持 Update / Insert、事务等数据仓库功能。e3U28资讯网——每日最新资讯28at.com

所有这些尝试和努力,都多多少少存在一些缺陷(数据仓库和数据湖存在本质的区别,整合难度很大),并不算成功。e3U28资讯网——每日最新资讯28at.com

2020 年,数据智能独角兽企业 Databricks(没错,就是提出 Delta Lake 的那个公司,数据湖的代表企业)正式提出了数据湖仓(Data Lakehouse)概念。e3U28资讯网——每日最新资讯28at.com

e3U28资讯网——每日最新资讯28at.com

Databricks 联合创始人兼首席执行官阿里・戈德西(Ali Ghodsi)表示:e3U28资讯网——每日最新资讯28at.com

“从长远来看,所有数据仓库都将被纳入数据湖仓,这不会在一夜之间发生 —— 这些东西会共存一段时间 —— 在价格和性能上,数据湖仓完胜数据仓库。”e3U28资讯网——每日最新资讯28at.com

数据湖仓,也被称为湖仓一体。e3U28资讯网——每日最新资讯28at.com

2021 年,“湖仓一体”首次被写入 Gartner 数据管理领域成熟度报告。2023 年 6 月,大数据技术标准推进委员会发布了《湖仓一体技术与产业研究报告(2023 年)》。这一年的 6 月 26 日,“湖仓一体”在中国大数据产业发展大会上成功入选“2023 大数据十大关键词”。e3U28资讯网——每日最新资讯28at.com

e3U28资讯网——每日最新资讯28at.com

█ 数据湖仓的主要特点

数据湖仓(湖仓一体),说白了,就是一种将数据仓库和数据湖打通的新型开放式架构。它既具备数据湖的灵活性,也具备数据仓库的高性能及管理能力,为企业进行数据治理带来了更大的便利和更高的效率。e3U28资讯网——每日最新资讯28at.com

在数据湖仓的底层,支持多种数据类型并存,能实现数据间的相互共享。e3U28资讯网——每日最新资讯28at.com

在数据湖仓的上层,可以通过统一接口进行访问,可同时支持实时查询和分析。e3U28资讯网——每日最新资讯28at.com

e3U28资讯网——每日最新资讯28at.com

数据仓库和数据湖这两套体系相互打通之后,数据可以在两者之间自由流动。e3U28资讯网——每日最新资讯28at.com

也就是说,数据湖里的“新鲜”数据(热数据),可以流到数据仓库里,直接被数据仓库使用。e3U28资讯网——每日最新资讯28at.com

而数据仓库里的“不新鲜”数据(冷数据),也可以流到数据湖里,低成本长久保存,供未来使用。e3U28资讯网——每日最新资讯28at.com

数据湖仓的特点,其实就是数据仓库的优点 + 数据湖的优点。e3U28资讯网——每日最新资讯28at.com

在数据存储方面,继承了数据湖的优势,支持多样化数据,且以 HDFS 或云对象存储为基础,实现了低成本、高可用。数据以原始格式或开放文件格式(如 Parquet、ORC)存储,具备高效的压缩比与列存储特性,方便查找。e3U28资讯网——每日最新资讯28at.com

开放文件格式,也保障了数据在不同计算引擎间的通用性。e3U28资讯网——每日最新资讯28at.com

数据湖仓同样支持 Iceberg、Hudi、Delta Lake 等开放表格式。它们不仅支持数据的近实时更新、高效的快照管理,还兼容 SQL 标准,使得数据既可以像传统数据库表一样进行事务性操作,又能充分利用数据湖的分布式存储与弹性计算优势。e3U28资讯网——每日最新资讯28at.com

在计算引擎方面(采用存算分离架构),整合了 Spark、Flink、Presto、Doris 等多样的计算引擎。通过统一的调度与资源管理,不同引擎可以共享存储资源,协同处理复杂的数据工作流,满足企业从实时监控到深度分析的全方位计算需求。e3U28资讯网——每日最新资讯28at.com

e3U28资讯网——每日最新资讯28at.com

阿里云数据湖仓架构(来自阿里云官网)e3U28资讯网——每日最新资讯28at.com

在数据一致性方面,提供 ACID(原子性、一致性、隔离性、持久性)保证,确保数据写入的一致性,保证了多方同时读取或写入数据时的数据准确性。e3U28资讯网——每日最新资讯28at.com

在数据管理方面,数据湖仓实现了统一的元数据管理,支持全链路血缘,提供统一的命名空间、全局的数据目录。无论数据存储在何处,使用何种计算引擎,用户都能通过统一的 API 进行快速检索、理解与访问数据。数据治理,变得非常高效。e3U28资讯网——每日最新资讯28at.com

在数据安全方面,数据湖仓一般还支持多租户和库表列级数据权限,能够很好地进行租户隔离和数据权限管控,确保了数据的安全性和隐私性。e3U28资讯网——每日最新资讯28at.com

e3U28资讯网——每日最新资讯28at.com

当然了,数据湖仓也不是没有缺点。e3U28资讯网——每日最新资讯28at.com

作为一项融合的技术架构,它的复杂性比较高,需要很高的技术门槛。而且,它的早期投资比较大,对企业来说有一定的成本压力。e3U28资讯网——每日最新资讯28at.com

数据湖仓的性能优化、数据治理以及安全防护,也存在一定的挑战。这些门槛和挑战,往往会让企业用户望而却步。e3U28资讯网——每日最新资讯28at.com

█ 数据湖仓的参考架构

数据湖仓诞生至今的时间并不是很长。从最开始的仓和湖独立建设,到后来,逐渐形成了“湖上建仓”与“仓外挂湖”两种实践路径。e3U28资讯网——每日最新资讯28at.com

湖上建仓,是指基于数据湖架构,或者以数据湖作为数据存储中间层,实现多源异构数据的统一存储。然后,以统一调用接口方式调用计算引擎,最终实现上下结构的湖仓一体架构。e3U28资讯网——每日最新资讯28at.com

仓外挂湖,是指以 MPP 数据库为基础,使用可插拔架构,通过开放接口对接外部存储,实现统一存储。e3U28资讯网——每日最新资讯28at.com

随着时间的推移,也有企业开始推出两种架构的深入融合。e3U28资讯网——每日最新资讯28at.com

目前,在数据湖仓领域比较有代表性的服务商,包括国外的 AWS(亚马逊云科技)、微软 Azure、Databricks、Snowflake,以及国内的阿里云、腾讯云、华为云、星环科技等。e3U28资讯网——每日最新资讯28at.com

e3U28资讯网——每日最新资讯28at.com

各大服务商的架构有较差的差异,但基本上都包括存储层、元数据管理层、计算引擎层、服务与治理层等。e3U28资讯网——每日最新资讯28at.com

以下是几个比较有代表性的架构,供参考。e3U28资讯网——每日最新资讯28at.com

科杰的数据湖仓架构:e3U28资讯网——每日最新资讯28at.com

e3U28资讯网——每日最新资讯28at.com

图片来自网络

Azure 的数据湖仓架构:e3U28资讯网——每日最新资讯28at.com

e3U28资讯网——每日最新资讯28at.com

图片来自网络

AWS 的数据湖仓(他们叫智能湖仓)架构:e3U28资讯网——每日最新资讯28at.com

e3U28资讯网——每日最新资讯28at.com

图片来自“特大号”

基于 Apache Doris 的湖仓一体架构:e3U28资讯网——每日最新资讯28at.com

e3U28资讯网——每日最新资讯28at.com

图片来自网络█ 最后的话

目前来看,数据湖仓正在加速成为企业重要的战略性基础设施,用于长期的数据价值挖掘,以及发展 AI 应用。e3U28资讯网——每日最新资讯28at.com

根据毕马威的报告显示,86% 的海外企业计划统一其分析数据,以支持 AI 业务的开发。国内也是如此。例如腾讯、B站、小红书等头部互联网企业,都采用了数据湖仓架构,用于不同程度的 AI 应用。e3U28资讯网——每日最新资讯28at.com

数据湖仓在实时流处理与机器学习方面表现出色,能够很好地满足大模型的训练需求,相信未来几年会得到更好的发展。e3U28资讯网——每日最新资讯28at.com

好啦,以上就是关于数据湖仓的介绍。鲜枣课堂大数据专题系列到此结束。感谢大家的耐心观看!e3U28资讯网——每日最新资讯28at.com

参考文献:e3U28资讯网——每日最新资讯28at.com

1、《数据库、数据湖、数据仓库、湖仓一体、智能湖仓,分别都是什么鬼》,特大号;e3U28资讯网——每日最新资讯28at.com

2、《从数据湖到湖仓一体:统一数据架构演进之路》,Light Gao,知乎;e3U28资讯网——每日最新资讯28at.com

3、《数据仓库、数据湖、湖仓一体,究竟有什么区别?》,SelectDB,知乎;e3U28资讯网——每日最新资讯28at.com

4、《什么是湖仓一体?湖仓一体解决了什么问题?》,帆软;e3U28资讯网——每日最新资讯28at.com

5、《2024 大数据“打假”:什么才是真湖仓一体?》,张友东;大数据在线;e3U28资讯网——每日最新资讯28at.com

6、《大数据架构系列:如何理解湖仓一体?》,叶强盛,腾讯云开发者社区;e3U28资讯网——每日最新资讯28at.com

7、百度百科,维基百科,各大服务商官网。e3U28资讯网——每日最新资讯28at.com

本文来自微信公众号:鲜枣课堂(ID:xzclasscom),作者:小枣君e3U28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-24-141679-0.html到底是什么是“数据湖仓”

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 持续畅销 30 多年,佳能 EF 50mm F1.4 USM 单反镜头已停产

下一篇: 雷神 AiBook 14 Air 笔记本开售:锐龙 R7-8745HS 处理器、2.8K 120Hz 高刷屏,4299 元

标签:
  • 热门焦点
  • 对标苹果的灵动岛 华为带来实况窗功能

    继苹果的灵动岛之后,华为也在今天正式推出了“实况窗”功能。据今天鸿蒙OS 4.0的现场演示显示,华为的实况窗可以更高效的展现出实时通知,比如锁屏上就能看到外卖、打车、银行
  • 线程通讯的三种方法!通俗易懂

    线程通信是指多个线程之间通过某种机制进行协调和交互,例如,线程等待和通知机制就是线程通讯的主要手段之一。 在 Java 中,线程等待和通知的实现手段有以下几种方式:Object 类下
  • 中国家电海外掘金正当时|出海专题

    作者|吴南南编辑|胡展嘉运营|陈佳慧出品|零态LT(ID:LingTai_LT)2023年,出海市场战况空前,中国创业者在海外纷纷摩拳擦掌,以期能够把中国的商业模式、创业理念、战略打法输出海外,他们依
  • 腾讯盖楼,字节拆墙

    来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之“想重温暴刷深渊、30+技能搭配暴搓到爽的游戏体验吗?一起上晶核,即刻暴打!”曾凭借直播腾讯旗下代理格斗游戏《DNF》一
  • 阿里瓴羊One推出背后,零售企业迎数字化新解

    作者:刘旷近年来随着数字经济的高速发展,各式各样的SaaS应用服务更是层出不穷,但本质上SaaS大多局限于单一业务流层面,对用户核心关切的增长问题等则没有提供更好的解法。在Saa
  • 超闭合精工铰链 彻底消灭缝隙 三星Galaxy Z Flip5与Galaxy Z Fold5发布

    2023年7月26日,三星电子正式发布了Galaxy Z Flip5与Galaxy Z Fold5。三星新一代折叠屏手机采用超闭合精工铰链,让折叠后的缝隙不再可见。同时,配合处
  • iQOO 11S或7月上市:搭载“鸡血版”骁龙8Gen2 史上最强5G Soc

    去年底,iQOO推出了“电竞旗舰”iQOO 11系列,作为一款性能强机,iQOO 11不仅全球首发2K 144Hz E6全感屏,搭载了第二代骁龙8平台及144Hz电竞屏,同时在快充
  • 朋友圈可以修改可见范围了 苹果用户可率先体验

    近日,iOS用户迎来微信8.0.27正式版更新,除了可更换二维码背景外,还新增了多项实用功能。在新版微信中,朋友圈终于可以修改可见范围,简单来说就是已发布的朋友圈
  • 2022爆款:ROG魔霸6 冰川散热系统持续护航

    喜逢开学季,各大商家开始推出自己的新产品,进行打折促销活动。对于忠实的端游爱好者来说,能够拥有一款梦寐以求的笔记本电脑是一件十分开心的事。但是现在的
Top