亚马逊云科技Amazon Redshift助力电商平台构建大数据基座 ...

李优秀 · 2024-7-28 19:14:40

关键字: [亚马逊云科技中国峰会2024, Amazon Redshift, 数据堆栈构建, 工作负载管理, Ai驱动扩缩, 多维数据布局, 代价能效比]

本文字数: 1900, 阅读完需: 10 分钟
导读

在亚马逊云科技中国峰会2024上,林益龙办理方案架构师介绍了”AI驱动的Redshift扩缩和优化”。他讨论了Redshift无服务器如何主动配置节点和扩展计算资源,并通过AI猜测模型实现智能扩缩容,提高代价性能比10倍。随后,店匠科技数据负责人统一五哥分享了基于Redshift构建数仓的实践,包括使用Redshift阈值集群和Serverless实例、数据同步方案、资源隔离等,并介绍了将来的优化计划。
演讲英华

以下是小编为您整理的本次演讲的英华，共1600字，阅读时间大约是8分钟。
在亚马逊云科技中国峰会2024上,办理方案架构师林益龙和店匠科技数据负责人统一五哥分享了关于Amazon Redshift的实践经验。
林益龙起首介绍了Amazon Redshift无服务器版本的特点,指出它是一种无需选择数据节点类型、预先规划容量或管理任何基础办法的数据堆栈服务,具有主动配置节点并主动扩展计算资源的本领,是一项完全主动维护的服务,可实现7*24小时的可用性,无需维护窗口。在使用时,用户可以直接查询存储在Amazon S3上的数据,比方爬虫格式或JSON格式的数据,这保存了用户的使用习惯。
林益龙指出,在日常工作中,用户会遇到来自报表工具的稳定查询请求(需求较少内存)、不定期的ETL使命(需求较大内存)以及数据工程师和数据科学家临时的分析需求(需求更大内存)。如果处理不当,可能无法完成大型使命,并影响稳定的BI使命运行。为办理这一问题,亚马逊研发了AI驱动的扩缩容和优化特性,开发了扩缩容猜测模型。该模型可以猜测在不同容量下查询的表现举动,从而得到最佳容量猜测,体系会弹出更大且更匹配当前查询的容量。林益龙发现,80%的查询已被观察过,体系已缓存了它们的资源需求、执行计划、数据量等信息。在第一阶段,体系通过向量查询从缓存中查出这些信息,对于短查询直接执行,对于长查询则举行弹性扩展。如果是新查询或数据量较上个月增长一个数量级,则进入第二阶段,快速判断当前查询是否需要扩容。如果是短查询,则正常计划执行;如果是长查询,则进入第三阶段,使用全局练习的猜测模型猜测所需资源巨细,最终举行扩容。
林益龙举例说明,在数据处理过程中,合理的数据布局是必须完成的一项工作,目的是在查询时尽可能少地扫描无用数据。比方,订单数据按时间排序,竞价数据按代价排序,需要针对不同场景设置合理的排序方式。为此,亚马逊推出了多维数据布局功能,可检测工作负载和查询常常使用的维度,并主动将数据存储到不同维度的存储块中。这样一来,查询语句可根据条件找到最符合的数据块,大大减少从磁盘加载到内存的时间。测试结果显示,使用多维数据布局相比使用最优单列排序键,可将运行时间缩短40%。
接下来,林益龙举行了一个小测试,假设工作负载包括稳定查询和临时进入的大查询。在当前无服务器特性下,体系会启动一个基础容量(30个RPU)来执行报表查询等工作负载。当大查询进来时,由于执行时间较长,会导致队列和并发度升高,此时无服务器版本会主动扩容一个或多个新容量,最终到达96个RPU以上。执行一段时间后,并发度降低,体系又重新回到3个RPU。而在AI优化的扩缩容下,体系会直接猜测并分配最合理的容量(如30个RPU)来执行大查询宁静常查询,在非常短的时间内完成处理,过程中还移除了最初的一个RPU容量。处理完大容量后,体系又快速卸载所有容量,回到最初的3个RPU。通过这个报告可以看出,整体查询耽误从48秒降低到4秒,长查询均匀时延从928秒降低到25秒,整体代价性能比到达10倍以上的提升。仅多付出了一点点的RPU用量,就获得了10倍的代价性能比提升。林益龙总结道,通过使用全新的AI驱动扩缩容和优化特性,可将代价性能比提高10倍,同时无需人工调解,每个扩缩容方案都根据工作负载需求定制,从而获得稳定的性能并避免性能悬崖和超时循环。
接下来,店匠科技数据负责人统一五哥介绍了该公司基于Redshift构建数据堆栈的实践。店匠科技是一家专注于电商办理方案和AI评论的公司,焦点产物是举世独立站SaaS平台,提供主题、订单商品管理等服务,旨在简化商家在平台上策划的过程,并利用技能帮助商家实现销售额增长。该公司的商家群体包括小商家、工厂和大型商家,覆盖36万家店铺,消费者覆盖150个国家,此中40%来自西欧市场。
在数据堆栈业务场景中,店匠科技需要高效的数据同步配置方式、良好的批量写入数据效率(每秒数百万行)、友好的资源隔离策略、友好的资源分配策略,以及支撑稳定的报表服务。之前使用云数仓时,存在数据跨网络传输可能导致安全合规问题、数据同步配置复杂、数据实例故障率高、数据复用受平台限制、运维需关注网络和实例问题等挑战。
使用Redshift后,数据同步配置复杂度适中,亚马逊云科技提供及时的技能支持和办理方案,能够顺畅同步数据;数据共享更加方便,可轻松实现资源隔离和复用;无需跨网络传输数据,可规避合规风险并降低使用成本;数据实例使用过程中的问题相对较少,报表服务较为稳定。
店匠科技目前采用的数据堆栈架构包括数据输入(业务体系产生的数据和服务埋点数据)、Redshift阈值集群存储、Redshift Serverless实例存储,以及用于商家服务的Starbox集群(相应时延0.3秒左右)和内部报表体系。业务体系数据主要通过DMS配置直接写入Redshift阈值集群,埋点数据则通过Kafka和数据处理服务群写入。阈值集群可与Serverless实例共享数据,实现资源隔离。店匠科技将算法资源与内部报表体系资源隔离在不同的Serverless集群中,以确保业务SLA。
在使用Redshift阈值集群的最佳实践方面,入仓场景选择阈值集群性价比较高;DMS无法处理表布局变更,需由SOP处理;Redshift对超长字符串支持一样平常,支持65535字节,使用Super可支持100万字节但需转换;非密集型写入业务可使用DMS直接写入,密集型写入业务则通过Kafka和Spark写入,避免Vacuum操作影响;过多业务读取流会导致业务库CPU升高,目前三条读取流基本无资源使用上升。
在使用Redshift Serverless实例的最佳实践方面,存储使用S3标准存储作为介质,成本约为每TB 24美元;实例间可共享数据;可设置资源上限控制费用上限,并关注队列控制总成本;无访问需求时RPU资源可降为0;可通过多个Serverless集群实现计算资源隔离,确保业务SLA。使用Serverless后,数据可视化体验更加流畅,服务连接性提升,一年半至一年期间故障率良好,一样平常几个小时级别。
店匠科技将来数据堆栈架构的演进规划包括:基于EMR的Pending应用探索,实现数据同步和复用;基于Redshift的布局化数据同步改造,大部门功能已支持,将用ETL工具办理遇到的问题;优化EMR资源使用方式,实验将阈值集群转为Serverless服务,降低硬件资源维护成本;优化Redshift Serverless实例成本,利用AI驱动的扩缩容等,预计将在2024年第二或第三季度推出RI实例,带来小幅成本降低。
总的来说,通过使用Redshift无服务器版本并联合AI优化特性,可显著提高性能和代价性能比,同时减少人工调解的需求,每个扩缩容方案均根据工作负载需求定制,获得稳定的性能并避免性能悬崖和超时循环。店匠科技分享了其在电商场景下使用Redshift构建数据堆栈的实践经验,包括架构计划、最佳实践、挑战和将来规划等方面,为Redshift的应用场景和优化方向提供了名贵的看法。两位分享者的内容为亚马逊云科技客户展示了Redshift无服务器版本和AI优化特性的现实应用,以及如何联合客户场景优化数据堆栈架构和资源利用,提高性能并降低总体拥有成本。
下面是一些演讲现场的精彩瞬间：
在亚马逊云科技中国峰会2024上,演讲者就数据堆栈和Redshift服务与在场观众互动,询问是否有相关负责人,并表明白Redshift为新用户提供的名誉额度。

亚马逊云科技中国峰会2024上,演讲者介绍了一种新的扩缩猜测模型,用于优化资源分配和查询执行效率。

亚马逊云科技推出了多维数据布局功能,可根据工作负载和查询常常使用的维度主动存储数据,大大提高了查询效率,相比单列排序键可将运行时间缩短40%。

通过AI优化的扩缩,亚马逊云科技在非常短的时间内处理大容量查询,将整体查询耽误从48秒降低到4秒,代价能效比提升10倍以上。

店匠科技数据库和数仓负责人介绍了基于Redshift构建数仓的实践经验
亚马逊云科技中国峰会2024上,演讲者分享了Redshift阈值集群的最佳实践,包括入仓场景的性价比优势以及搭建CDC数据同步流时的注意事项。

亚马逊云科技在2024年中国峰会上公布了Relative Serverless实例成本优化调解和AI驱动的主动扩缩容功能,进一步提升了云服务的性价比和弹性。

总结

亚马逊云科技中国峰会2024上,亚马逊云科技办理方案架构师林益龙分享了Amazon Redshift的AI驱动扩缩和优化特性。他起首回顾了Redshift无服务器版本的关键特性,如主动配置节点、主动扩展计算资源、主动维护等。接着叙述了数据处理过程中遇到的资源管理痛点,如工作负载波动、内存需求不同等。
为办理这些挑战,亚马逊推出了AI驱动的扩缩和优化功能。它采用分阶段猜测模型,根据查询特征智能分配最佳资源,大幅提升代价性能比。另外,多维数据布局功能可主动优化数据存储,减少数据加载时间。测试显示,新特性可将代价性能比提高10倍,同时避免性能降落和超时。
随后,店匠科技数据负责人统一五哥介绍了基于Redshift构建数仓的实践。他起首概述了店匠科技的业务场景和数仓架构,阐明白选择Redshift的原因和最佳实践。接着分享了基于Redshift Serverless的实践经验,包括资源隔离、成本控制等优势。最后,他猜测了将来数仓架构的演进方向,如探索EMR、优化ETL流程、调解Serverless实例成本等。
2024年5月29日，亚马逊云科技中国峰会在上海召开。峰会期间，亚马逊举世副总裁、亚马逊云科技大中华区总裁储瑞松全面叙述了亚马逊云科技如何利用在算力、模型、以及应用层面丰富的产物和服务，成为企业构建和应用生成式 AI 的首选。此外，活动还具体介绍了亚马逊云科技秉承客户至尚的原则，通过与本地互助伙伴一起支持行业客户数字化转型和创新，提供安全、稳定、可信赖的服务，以及持续深耕本地、链接举世，助力客户在中国和举世化发展的道路上取得乐成。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

亚马逊云科技Amazon Redshift助力电商平台构建大数据基座 ...

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块