石小疯 发表于 2024-6-11 09:24:57

阿里云EMR 2.0:界说下一代云原生智能数据湖

摘要:本文整理自阿里云高级技能专家/数据湖存储负责人郑锴(铁杰);阿里云高级技能专家/开源大数据OLAP负责人范振(辰繁)在 阿里云EMR2.0线上发布会 的分享。

本篇内容主要介绍了阿里云云原生数据湖分析解决方案的三个核心要素:

1.全托管,湖存储;
2.一站式,湖管理;
3.多模态,湖计算阿里云云原生数据湖分析解决方案全面重磅升级,经中国信通院评测,它是目前国内唯一满分的数据湖方案。它有三个核心要素构成:


[*]全托管,湖存储:全面兼容支持 HDFS/POSIX 协议,无缝对接大数据和AI一体化生态;
[*]一站式,湖管理:提供全面的数据库存储管理本领;
[*]多模态,湖计算:基于一湖多架构,能够同时实现离线湖、实时湖、湖仓分析。
一、全托管 - 湖存储(OSS-HDFS)

1、第三代数据湖存储 OSS-HDFS



[*]第一代数据湖存储是开源的 HDFS;
[*]标准对象存储如阿里云OSS,被以为是第二代数据库存储;
[*]阿里云融合前两代数据湖存储上的上风,推出第三代数据湖存储:OSS-HDFS。
2、OSS-HDFS 生态支持

https://img-blog.csdnimg.cn/img_convert/afa15692b79a80ddc9a386d5638f1174.png
新的数据湖存储解决方案 OSS-HDFS,通过 HDFS API 和 POSIX API,实现对数据湖存储之上丰富的大数据和AI计算场景的完整支持,这是第三代数据湖存储的核心命题。


[*]通过提供充实的、完全的 HDFS 接口兼容,充实对接 Hadoop、Spark 这类大数据生态;
[*]同时,对新兴的湖仓分析计算场景也提供了充实的支持;
[*]对于蓬勃发展的AI生态,通过 POSIX 提供兼容支持。
3、性能上风

在存储服务的核心本领方面,如性能、规模和本钱上,阿里云云原生数据湖分析解决方案具备显著的上风。


[*]性能:高
   
[*]原子性和毫秒级目次操作 rename、delete   
[*]超大目次 du/count 毫秒级返回

[*]规模:大
   
[*]热文件(10 亿)+ 温冷(40亿)vs 4亿   
[*]OSS 带宽程度扩展

[*]本钱:低
   
[*]标准࿰


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 阿里云EMR 2.0:界说下一代云原生智能数据湖