阿里李飞飞:云原生分布式数据库解决企业用户核心诉求

鸣远 2020-09-18 14:53:48
人物 2020-09-18 14:53:48 阅读 2510 评论 0

9月18日消息,阿里巴巴集团副总裁、高级研究员、ACM杰出科学家李飞飞(花名飞刀)在云栖大会发表演讲表示,如今数字经济迎来了新的快速发展,企业面临着呈指数级递增的海量存储需求和挑战,业务有更多的热点和突发流量带来的挑战,传统的商业数据库已经难以满足和响应快速变化持续增长的业务诉求。

云原生分布式数据库带来了从资源池化到弹性扩展,再到智能运维,再到离在线一体化的四大特性,很好的解决了企业用户的核心诉求。

《电商报》了解到,李飞飞还在云栖大会上发布阿里云自研的云原生分布式数据库PolarDB-X,以及PolarDB-X两大全新企业级功能:混合负载 HTAP 和 全局二级索引透明分布式。

分布式数据库PolarDB-X专注解决超高并发存储,海量数据存储下的在线事务型数据库的瓶颈问题。

利用PolarDB-X的HTAP智能混合负载技术、数据查询强一致技术、资源链路强隔离技术和在线分析加速技术,PolarDB-X可以使在线交易和在线复杂查询的性能大大提升,效率提升5到10倍以上。

而全局二级索引功能,可以支持多维字段拆分,提供透明分布式拆分能力,满足业务对不同维度查询拆分的诉求。

以下是发言全文:

李飞飞(飞刀):大家好,我是李飞飞,花名飞刀。如今数字经济迎来了新的快速发展。从在线教育到远程办公,直播购物,到传统的政企,各个行业,都成为了数字经济的新亮点。

企业业务全面向数字化、在线化、智能化演进,企业面临着呈指数级递增的海量存储需求和挑战,业务有更多的热点和突发流量带来的挑战,我们的企业又需要降本增效,进行更好的智能的数据决策,传统的商业数据库已经难以满足和响应快速变化持续增长的业务诉求。

云原生分布式数据库带来了四大特性,很好的解决了我们企业用户的核心诉求。从资源池化到弹性扩展,再到智能运维,再到离在线一体化。利用这些核心的特性,我们将数据库全面的进入云原生加分布式的时代。

那究竟什么是云原生分布式数据库呢?下面我们来一探究竟。

云原生数据库基于Shared Everything+shared storage 的存储计算分离架构实现资源池化高效管理,同时兼具弹性高可用水平拓展的特性。什么是分布式呢?就是用Shared Nothing的架构,实现数据水平分片、水平扩展。如果我们将两者完美的结合在一起,那就带来了我们的云原生分布式数据库,将Shared Nothing 和Shared Everything、shared storage 的特性完美的结合在一起,

今天我非常荣幸在这里正式发布我们阿里云自研的云原生分布式数据库PolarDB-X。

PolarDB-X是我们自主研发的基于Shared Nothing + Shared Everything、share storage 架构的云原生分布式数据库,专注解决超高并发存储,海量数据存储下的在线事务型数据库的瓶颈问题。

为了更高效的支持在线业务、高并发交易以及在线复杂查询的诉求,我们今天发布PolarDB-X两大全新企业级功能:混合负载 HTAP 和 全局二级索引透明分布式。

在线数据库既要承载高并发、海量实施交易,又需要支持在线业务部分复杂查询分析需求,传统的分布式数据库需要通过ETL方式将数据异步传输至数据分析平台,在线复杂查询的数据一致性和实时性无法得到严格的保证,数据传输链路运维复杂度高,业务使用成本上升。

我们利用PolarDB-X的HTAP混合负载特性,同时覆盖高并发实时交易和部分在线数据分析处理的场景。实现高并发交易在线复杂查询加速一体化。

利用我们的智能混合负载技术、数据查询强一致技术、资源链路强隔离技术和在线分析加速技术,使得我们的在线交易和在线复杂查询的性能大大提升,效率提升5到10倍以上。

同时为了更高效的支持我们在线业务PolarDB-X今天全新发布了全局二级索引功能,可以支持多维字段拆分,提供透明分布式拆分能力,满足业务对不同维度查询拆分的诉求。

基于分布式事物确保索引数据与主表数据强一致,数据可靠不丢失。

从一个具体的场景出发,我们来看一个实例,全局二级索引能帮我们的客户来做什么呢?我们通过一个典型的电商买卖家场景来展示全局二级索引的能力。

我们知道订单表通常由我们的买家ID进行拆分,也就是Buyer ID,但是当卖家要进行订单查询的时候,数据库就必须要进行扫描全部物理表,导致我们数据库资源负载飙高,整体吞吐能力下降。

通过使用PolarDB-X为卖家ID创建全局二级索引,上面的查询,卖家订单查询,仅仅通过查询我们的全局二级索引来回表进行二次查询,就可以完成整体的SQL操作,实现了透明的分布式数据库,整体处理效率提升百倍。

PolarDB-X连续多年稳定支撑天猫双11活动。在去年2019年的双11,阿里巴巴集团电商核心业务全面采用PolarDB-X,支撑了高达每秒8700万次的TPS 峰值,每秒55万笔的交易订单,完美抵御了全球最猛最高的交易活动。

此外,在很多事关国际民生的社会基础服务背后,也有PolarDB-X的身影。中国邮政在我们国家的物流行业中起着中流砥柱的作用,保障其物流平稳生产的核心信息系统——新一代寄递平台便采用了我们的PolarDB-X,以及我们下面将要介绍的云原生数据仓库AnalyticDB。

中国邮政VCR

PolarDB-X的这些新增特性,很好的解决了分布式云原生条件下在线事务型业务的痛点,在分析领域我们其实也面临着类似的问题和挑战。

传统的自建分析系统不得不面对计算存储扩展、建设成本、计算分析实质化以及多种架构等一系列的挑战和问题。这些问题也困扰我们的企业无法更好的使用数据分析,发挥数据的价值,促进业务的发展。基于我们前面提到的云原生的理念,从弹性功能、成本、性能等角度,我们去解决上述用户的这些痛点。包括存储计算独立、按需付费,按量使用,ETL在线分析一体化、实时的增删改查,实时计算。通过我们的云原生/按需付费,离在线一体化、实时性、实时增删改查。我们的OLAP数据库将全面的进入云原生时代,实现会数据库就会大数据(金句)。

让我们整体看一下我们阿里云数据分析产品的大图。我们的核心产品包括我们的云原生数据仓库,AnalyticDB(ADB)、云原生数据湖分析Data Lake Analytics(DLA)等。通过这些产品的组合,我们很好的满足用户对复杂数据分析场景的各类需求,从下层的多元异构的数据源,比如像RDBMS、对象存储OSS、日志服务、大数据生态等,我们的数据仓库ADB和数据湖DLA都可以提供,多元异构的数据接入能力。

为了让分析计算更简单,更好的满足企业面对突发流量需求,我今天很高兴的在这里和大家一起见证云原生数据仓库AnalyticDB 的重磅升级发布。

我们的ADB MySQL 版本高度兼容MySQL,利用云原生的弹性模式能力,让用户在购买基础资源的基础上,按时间段或资源需要扩展其计算资源或存储资源能力,满足我们用户对差异化工作负载或业务峰值的资源需求。这种云原生的特性推出可以大大降低用户的实际使用和购买成本,避免了用户需要预留大量资源满足业务峰值的这种挑战。

此外,在我们的ADB PG 版本上,我们发布了自研的Laser引擎,新增向量计算引擎,列式内存模型、JIT加速、列式存储优化等手段,较原生引擎大幅提升性能。例如较Greeplum原生引擎我们有一倍以上的性能提升,ADB PG全面兼容Greenplum,同时高度兼容Oracle、Teradata等这种传统数仓。功能丰富,成熟度高,具备离在线一体化的能力,非常适合金融、政企运营商等使用传统Oracle、Teradata这种数仓低门槛升级至云原生数仓,我们这种多款重磅发布的新功能和特性,极大提升了我们云原生数仓的能力。

在2020年上半年,我们参加了国际标准化组织TPC的评测,取得了非常不错的成绩。我们来看一下TPC-H的评测结果,也就是混合负载的基准测试。

我们ADB刷新了TPC-H的30TB性能榜单世界纪录,相比第二名,微软的SQL server 2019性能提升290%以上,性价比低至1.46,成为首个登上榜单的榜首的国内厂商。

下一个我们来看针对复杂分析场景的TPC-DS 10TB的权威基本测试,我们ADB在性能指标上刷新了世界纪录,荣登榜单第一名。在我们的测试过程中,我们充分利用了我们云原生的弹性快速扩容和计算加速的能力,在有限资源下实现了性能性价比双料第一,领先第二名3倍以上。

本次我还非常高兴的带来了重磅升级的云原生数据库分析DLA,利用我们云原生的Serverless技术,我们DLA可以提供例如Serverless这样的能力支持ETL、流、机器学习用户可编程等一系列丰富的企业级功能。

云原生Serverless的架构,有效的降低了企业数据分析和计算的成本,性能较自建的分析系统。例如spark 提升300%以上,可实现一分钟弹出300个节点参与计算中,通过Serverless方式大大降低使用成本。同时辅助UI和诊断工具提供多种异构数据的访问方式,提供多元易购数据湖的易用性。

我们的云原生数据仓库,AnalyticDB和我们的数据湖分析DLA已经在国内多个用户落地,覆盖金融到制造、到零售、再到航空、物流、政务等多个头部企业,包括像中国南方航空,前面提到的中国邮政,海尔、美的,还有像大众点评这样的泛互联网客户。有效的实现了企业降本增效,数据分析离在线一体化的目标。

为了助力企业上云,我们特意设计和推出了两个计划。我们的万仓计划和我们的升舱计划。结合我们的数据中台和我们的合作伙伴一起助力传统企业实现从到云原生数仓的升级。

一切业务在线化是数字化创新,数字化转型的本质,数据库又是数字化创新和数字化转型的重要一环。我们自研的云原生分布式数据库已经深入各行各业,现在已经在全球领先的运营商核心业务系统中试点,具有里程碑式的标杆意义。

下面有请大家和我一起观看一段短片。

中国移动VCR

感谢广东移动对我们数据库产品的高度肯定和信任。

该领域此前一直是传统商业数据库的优势领域的这次的业务落地和试点,充分体现了我们阿里云云原生分布式数据库的产品能力,已经得到了传统行业客户以及泛互联网企业客户的高度认可。我们非常高兴的说,我们已经进入了传统的OLTP在线数库和OLAP在线分析库,全面升级至云原生分布式数据库、云原生分布式数据仓库的时代。

感谢大家的聆听。

声明:
  1. 该内容为作者独立观点,不代表电商报观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
  2. 电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
  3. 如对本稿件有异议或投诉,请联系:info@dsb.cn
请勿发布不友善或者负能量的内容。与人为善,比聪明更重要!
讨论数量: 0
暂无评论