数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体

随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性。但是数据仓库和数据湖的区别到底是什么,是技术路线之争?是数据管理方式之争?二者是水火不容还是其实可以和谐共存,甚至互为补充?本文作者来自阿里巴巴计算平台部门,深度参与阿里巴巴大数据/数据中台领域建设,将从历史的角度对数据湖和数据仓库的来龙去脉进行深入剖析,来阐述两者融合演进的新方向——湖仓一体,并就基于阿里云MaxCompute/EMR DataLake的湖仓一体方案做一介绍。

大数据领域发展20年的变与不变

1.1 概述

大数据领域从本世纪初发展到现在,已经历20年。从宏观层面观察其中的发展规律,可以高度概括成如下五个方面:

1. 数据保持高速增长– 从5V核心要素看,大数据领域保持高速增长。阿里巴巴经济体,作为一个重度使用并着力发展大数据领域的公司,过去5年数据规模保持高速增长(年化60%-80%),增速在可见的未来继续保持。对于新兴企业,大数据领域增长超过年200%。

2. 大数据作为新的生产要素,得到广泛认可– 大数据领域价值定位的迁移,从“探索”到“普惠”,成为各个企业/政府的核心部门,并承担关键任务。还是以阿里巴巴为例,30%的员工直接提交大数据作业。随大数据普惠进入生产环境,可靠性、安全性、管控能力、易用性等企业级产品力增强。

3. 数据管理能力成为新的关注点– 数仓(中台)能力流行起来,如何用好数据成为企业的核心竞争力。

4. 引擎技术进入收敛期 – 随着Spark(通用计算)、Flink(流计算)、Hbase(KV)、Presto(交互分析)、ElasticSearch(搜索)、Kafka(数据总线)自从2010-2015年逐步占领开源生态,最近5年新引擎开源越来越少,但各引擎技术开始向纵深发展(更好的性能、生产级别的稳定性等)。

5. 平台技术演进出两个趋势,数据湖 VS 数据仓库– 两者均关注数据存储和管理(平台技术),但方向不同。

数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体

图1.  阿里巴巴双十一单日处理数据量增长

1.2 从大数据技术发展看湖和仓

首先,数据仓库的概念出现的要比数据湖早的多,可以追溯到数据库为王的上世纪 90 年代。因此,我们有必要从历史的脉络来梳理这些名词出现的大概时间、来由以及更重要的背后原因。大体上,计算机科学领域的数据处理技术的发展,主要分为四个阶段:

1. 阶段一:数据库时代。数据库最早诞生于 20 世纪的 60 年代,今天人们所熟知的关系型数据库则出现在 20 世纪 70 年代,并在后续的 30 年左右时间里大放异彩,诞生了很多优秀的关系型数据库,如 Oracle、SQL Server、MySQL、PostgresSQL 等,