亚马逊云科技怎样对待云计算财产在硬件方面的创新趋势 ...

篮之新喜 · 2024-6-11 09:24:45

“真正认真对待软件的人应该制造自己的硬件。”
这是被称为个人电脑之父的艾伦·凯博士的一句广为流传的言论。这种趋势正在云计算行业发生。目前，环球主流云计算厂商均已加入自研芯片的行列。假如追溯这一趋势的发展，亚马逊云技术无疑是领先者。
在re:2022大会上，亚马逊云科技三大芯片体系全新发布，包括第五代虚拟化芯片Nitro v5、ARM架构处置惩罚器、呆板学习加速推理芯片以及最新芯片支持的新实例。
亚马逊云技术在自研芯片方面有哪些最新盼望？亚马逊云科技怎样对待云计算行业硬件的创新趋势？

专用芯片，未来五大技术趋势之一
“到2023年，专用芯片的利用将迅速增加。” 亚马逊CTO将“专用芯片成为主流”列为2023年及未来五大技术趋势预测之一。
以为，过去定制专用芯片和专用硬件在斲丧领域发展迅速，而商用领域软硬件的更新周期通常较长。然而，随着定制的专用芯片变得更加流行和采取，这种情况将在未来几年迅速改变。
“亚马逊云技术比年来在芯片计划上投入了大量资金。因为我们知道，在云端运行的工作负载在定制芯片上运行时具有更好的性能，而且更具本钱效益。” 说。
在专用芯片的理念下，亚马逊云科技的自研芯片分为三大体系，包括：

亚马逊云技术大中华区解决方案架构部总监戴文表示，“Nitro v5和3E系列芯片的发布反映了当前的一个趋势——想要提供一流的云服务，必须具备底层硬件本领一个优秀的云厂商，在满足客户需求的时候，须要对软件该做什么、硬件该做什么有很好的规划和门路。”

“硬件不是为了创新而创新，一般的硬件加软件优化的方式已经不够高效，或者内部底层功能不够灵活，跟不上创新的速度，所以硬件是逆向打造的”。
Nitro芯片，10年硬件虚拟化积累
假如回首一下亚马逊云技术自2006年以来发布的全部EC2实例数目，就会发现2017年是一个关键节点。
2017年之后，EC2实例数目快速增长。截至2022年底，EC2实例数目已达600+，覆盖各类计算平台。这很大水平上要归功于虚拟化芯片Nitro。

“Nitro 最大的创新在于它解耦了亚马逊云技术的整个技术演进和架构。” 亚马逊云技术大中华区产品部总司理陈晓健表示。
总体而言，Nitro 芯片为亚马逊云技术带来三大代价：
第一，更快的创新
颠末10年的迭代，Nitro芯片成功验证了硬件支持虚拟化的技术门路。在传统服务器中，计算虚拟化通常会占用30%的体系资源。 Nitro芯片将网络、存储、管理、安全和监控功能与服务器解耦，交给专门的硬件举行处置惩罚，让虚拟化管理程序占用服务器体系资源不到1%。
Nitro 通过专用硬件卸载网络和存储等工作负载，极大地淘汰了开发 EC2 实例的工作量，从而实现 EC2 实例类型的灵活计划和快速交付。

二、安全性更高
Nitro 创建了硬件级别的安全机制。以新发布的Nitro V5为例。硬件情况除了拥有自己的安全芯片和专用安全芯片TPM外，还可以实现网络和存储的隔离。
三、云服务性价比更高
底层芯片性能升级给云计算客户带来的最大好处是云服务性价比的提升。与上一代相比，Nitro V5 数据包转发本领提升 60%，延迟降低 30%，每瓦性能提升 40%。
与当前一代网络优化实例相比，利用 Nitro v5 的 EC2 C7gn 实例可提供高达 2 倍的每个 CPU 网络带宽，同时每秒数据包转发性能提高 50%，非常适合网络密集型工作负载。提供超高性能和本钱效益。

芯片，高性能计算领域不断突破
自2018年发布以来，该系列芯片已经履历了三代迭代。最新版本是高性能计算领域的进一步突破。与现有产品相比，提供高达2倍的矢量计算性能，可广泛应用于矢量计算、浮点计算、AI/ML、HPC等应用场景。
利用该芯片的EC2 Hpc7g实例可以为高性能计算工作负载提供超高性价比。与当前一代C6gn实例相比，Hpc7g实例的浮点性能提升了2倍；与当前一代Hpc6a实例相比，性能提升20%。

不仅仅是底层芯片，亚马逊云技术也在不断完善生态体系，并基于其打造出很多托管云服务，包括EMR、、等。

自该系列芯片推出以来，大量客户已将工作负载从传统 x86 架构迁移出来。亚马逊云技术支持客户在一两周甚至几天内完成从x86到x86的切换，在不改变上层程序的情况下轻松将云服务的本钱效益提升40%。
而且，用于呆板学习训练和推理的专用芯片
在过去的几年里，呆板学习芯片每隔几年就会翻一番或有所改进。这个速度相对于通用计算硬件来说已经非常快了，但是仍旧不敷以应对AI训练模型复杂性的挑战。
为此，亚马逊云技术提出了分布式训练技术，通过网络将模型通过多个节点举行协同计算和协同训练来解决题目。这也是亚马逊云技术在呆板学习方面的技术门路。不仅仅是单个AI芯片性能的提升，还须要算力、存储、网络性能的全面突破。
配备推理芯片的 EC2 Inf2 实例专为运行具有多达 1750 亿个参数的大型深度学习模型而构建，与当前一代 EC2 Inf1 实例延迟相比，可提供高达 4 倍的吞吐量和高达 10 倍的吞吐量，而且具有更好的本钱和更低的延迟。
Trn1实例可以为呆板学习训练提供高性价比。以万亿参数大模型GPT3两周训练量为例，假如利用基于GPU服务器的P3dn实例，须要600个实例，最新一代GPU实例P4d须要128个实例，但Trn1只须要利用96。
写在最后
从亚马逊云科技自研芯片的最新盼望可以看出，颠末十多年的发展，云计算已经到了硬件创新成为行业重要驱动力之一的阶段。那些率先体验到专用芯片上风的企业，将动员更多企业加速尝试，扩大规模效应。
“本钱节省和性能上风将带来更多的实验、创新和采取，并最终为其他特定工作负载提供更多定制芯片。这是一个良性循环。” 亚马逊首席技术官表示。
末端
本文为《智能进化论》原创作品。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

亚马逊云科技怎样对待云计算财产在硬件方面的创新趋势 ...

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云