人工智能-大模型落地：GPU向上，NPU向下

tsx81428 发表于 2024-8-25 10:58:55

大模型落地：GPU向上，NPU向下

自从ChatGPT问世以来，大模型取得了迅猛的发展。不光是在ChatGPT本身这一天然语言处理领域取得了重要进展，而且在视频领域也有令人瞩目的大模型，好比DINOv2，它可以对视频图像进行语义理解。此外，SAM是一种能够对场景进行细粒度分割的模型。这些进展显示出我们正处于一个新的范式拐点，即大模型无处不在。
与此同时，主流的大模型架构——Transformer架构，也在ChatGPT的成功应用后引起越来越多的关注。许多研究和应用领域开始将传统的卷积神经网络（CNN）转向Transformer架构。
在大模型的落地应用方面，目前主要会集在云侧，依赖GPU提供算力，所带来的影响和打击波巨大。想象一下，如果大模型能够在边缘侧和终端侧进行摆设，那将推动智能应用的大力普及和发展，为用户和企业带来更多的便利和价值。想象一下，每个人在打开手机或终端时，就能轻松获取医生、状师、厨师等专业知识，这将是可能的。
长远来看，实现在边缘侧和终端侧摆设大模型也将是将来的发展方向。然而，要在端侧和边缘侧高效地摆设Transformer，我们必要思考利用何种技术和资源。是否继续依赖GPU？大概接纳其他更适合边缘侧和终端侧的解决方案。
Transformer架构：大模型的最佳选择
任何一个数字系统大概是复杂的场景都可以分为信息系统、模型系统和行动系统这三大部分：信息系统是整个系统的基础，它负责从外部或内部网络信息，并将其通报给其他组件进行处理或决策；模型系统是在信息系统的基础上构建的，它利用网络到的信息，并运用算法、机器学习或其他技术来进行分析、猜测或决策；行动系统接收来自负息系统和模型系统的输出，并根据其进行实际的操作、决策或实行。
模型系统成为当代技术和商业应用的重要组成部分，模型系统带来的好处有哪些？一个非常直观的具象例子，陆奇博士在克日《新范式新时代新机会》主题分享中谈到，在互联网不发达的时候，买一张地图必要3美元，信息获取的本钱相称高，现在，我们只必要打开导航就可以轻松获取所必要的信息。这就是信息系统所带来的变化。在模型系统这里，ChatGPT也是起到类似的作用。诸如ChatGPT如许的大模型应用，某种程度上就是相称于封装了各行各业的知识或具体任务的方法。大模型的诞生将大幅低落我们获取知识的本钱。
所有这些大模型本质上都是经过预练习的模型，而且大都是基于Transformer架构。Transformer和CNN都是深度学习中常用的神经网络架构。与CNN不同，Transformer模型引入了自注意力机制（self-attention mechanism），使得模型能够在处理序列数据时捕捉到更长距离的依赖关系，从而更好地建模语义信息。必要指明的是，尽管Transformer在盘算机视觉领域取得了一些成功，但CNN仍然在许多领域中表现出色，尤其是在处理具有空间局部性和平移稳固性的图像数据时。因此，目前CNN仍然是许多盘算机视觉任务的首选模型。
Transformer架构最初被广泛应用于天然语言处理领域，尤其是在机器翻译任务中取得了庞大突破。随着Transformer的成功，人们开始投入更多的资源将其应用于盘算机视觉（CV）领域。研究者们发现，在一些盘算机视觉任务中，如图像分类、目标检测和图像天生等，利用Transformer模型可以取得与或甚至超过传统的CNN模型相媲美的性能。此外，由于Transformer模型的并行盘算能力和扩展性较好，它还被应用于处理高分辨率图像和视频等大规模数据的任务中。
要想在边缘侧和终端侧实现大模型应用，也势必将要摆设Transformer。不同于云端，在边缘侧和端侧摆设Transformer模型面临的最大挑战之一是功耗。功耗的题目必要从两方面来解决：一方面是从算法侧入手，必要在算法侧通过剪枝、量化和低比特等技术进一步优化和压缩大模型，以减少其盘算和存储需求，从而低落功耗。另外一个在硬件层面，考虑到GPU的本钱和功耗，行业必要寻找更高效的硬件加速器和低功耗的芯片计划，提供高效的盘算能力。
AX650N成为端侧、边缘侧Transformer最佳落地平台
2023年3月，爱芯元智推出了第三代高算力、高能效比的SoC芯片——AX650N，依托其在高性能、高精度、易摆设、低功耗等方面的优秀表现，AX650N受到越来越多有大模型摆设需求用户的青睐，并且成为业内首屈一指的Transformer端侧、边缘侧落地平台。
为什么说AX650N是业内最佳Transformer落地平台呢？目前行业一样寻常接纳SwinT网络作为权衡Transformer的一个根本指标。在爱芯元智AX650N上跑SwinT网络，可以达到361FPS的高性能、80.45%的高精度、199 FPS/W的低功耗以及原版模型且PTQ量化的极易摆设能力，这四大能力都让AX650N在Transformer的落地中具有领先的优势职位。
https://img-blog.csdnimg.cn/img_convert/80e8b60e467809decb592bae39b1f3eb.png
起首，361帧的高性能可以媲美英伟达自动驾驶领域的AGX平台（大约跑400帧以内），而且在本钱方面具有很大的优势；其次，每瓦199帧体现了低功耗，相比NVIDIA的AGX整体的TDP大概是15到60瓦；最后，对客户来说，易摆设也是其很大的卖点，GitHub上的原版模型可以AX650N上运行，不必要对模型做修改，不必要QAT重新练习，而且可以达到80.45%的高分类正确率，这高于市面上的均匀程度。
AX650N不光仅可以运行SwinT网络，AX650N还已适配包罗ViT/DeiT、Swin/SwinV2、DETR在内的Transformer模型。AX650N运行DINOv2大模型能达到30帧以上运行结果，这也使得用户在下游进行检测、分类、分割等操作更加方便。
在模型压缩方面，前文中我们提到了一些在算法层面的压缩方法，如剪枝、稀疏等，爱芯元智联合创始人、副总裁刘建伟指出，低比特也是压缩模型的一个方法，而且是对硬件最友好（自制）的方式。在这方面，AX650N支持低比特混合精度，如INT4。如许的好处在于，一样寻常大模型的参数是比力大的，如果能接纳INT4，可以极大地减少内存和带宽占用率，有用控制端侧边缘侧摆设的本钱。
“为什么我们会对Transformer支持比力好，简朴概括就是我们有一个全面优化的计划，还有一个高性能的多核架构。我们的NPU在计划初期接纳了异构多核的结构，其中包罗一个具有肯定可编程性的核，这为Transformer网络的利用提供了灵活性。同时，在计划过程中我们也考虑到了某些网络对数据需求量较大的情况，并在架构上进行了一些预留。如许的计划使得我们的Transformer在运行时表现得相对较快。
最终从客户的体验来看，客户能够体会到我们平台是比力好用、易用，好用是性能比力高，它能够实时跑更多的应用，对场景的顺应性比力强；易用是他上手速率比力快，客户最终接触到的是一个软件界面，只需将他们的模型以标准的ONNX格式导入我们的软件，就可以做一些编译的操作，量产周期也能缩短。”爱芯元智相关负责人指出。“有客户反馈，拿到我们的开辟板和文档，根本上一个小时就能够完成demo的复现以及他们自己的私有网络在板子上运行。”
为了能够便于对Transformer感爱好的同学、工程师以及开辟人员能够开辟深度研究，探索更丰富的产物应用。爱芯元智正在开辟基于AX650N的爱芯派Pro开辟板。
综上，无论是从性能还是摆设这两方面来看，爱芯元智的AX650N平台正在成为业内首屈一指的Transformer端侧、边缘侧落地平台。
端侧和边缘侧AI应用迈上一个新台阶
在端侧和边缘侧加速AI应用不停以来都备受关注。特别是在一些标准化的应用领域，如人物识别、车辆识别和车牌识别等，目前已经取得了明显的成果，由于这些需求非常迫切。然而，在更通用的场景中，智能技术的结果并不是特别出色。换句话说，在这些场景中，要想实现精良的结果，通常必要进行更加针对性的投入。然而，由于客户可能不愿为此支付过高的本钱，这导致了在更通用的应用场所中，智能技术的落地进展并不顺利。
但现在，随着在大型预练习模型的崛起中，我们看到了边缘场景中AI智能本钱低落的希望。这些模型可能不再必要对每个细分场景进行全面定制，而是通过将预练习的大型模型应用于特定场景，便能取得出色的结果。“虽然各人已经看到了这些模型能够解决一些长尾题目，但要在实际场景中完全实现落地，我认为还必要一些时间。不过将来在AI端侧和边缘侧，我们可以预见AI应用将迈上一个新台阶。”爱芯元智相关负责人表示。
ChatGPT爆火之后，国内关于大模型应用的开辟风起云涌，不夸张地说已经进入“百模大战”。一旦这些模型开始商业化，本钱效益必然成为一个关键诉求。刘建伟表示：“最初提到的练习模型可能都是基于GPU，但在实际落地时，为了低落本钱，则接纳更高能效比的解决方案。如许才能最终实现对用户来说获取大模型知识接近于免费大概本钱很低，而整体运营本钱则会集在提供大模型的一方。这也是大模型提供方必然对本钱向下诉求的原因。因此，随着时间的推移，我们将努力不懈地在基础路线上改进，并提供更高效的摆设平台。”
对此，爱芯元智创始人、CEO仇肖莘密斯指出，爱芯元智将在成为人工智能算力平台型公司的道路上继续探索，加速基于Transformer的大模型在端侧、边缘侧落地的节奏，“爱芯元智将继续努力打造基于芯片+软件的端侧、边缘侧人工智能算力平台，让智能落实到生活的真实场景，最终实现普惠AI作育美好生活的企业愿景”。
写在最后
在这个即将到来的大模型时代，“GPU向上”意味着GPU更加实用于云侧等高性能盘算场景，“NPU向下”代表NPU利用趋势是向更低功耗、边缘设备上的应用方向发展。GPU与NPU将是大模型应用落地的双重引擎。
读者福利：如果各人对大模型感爱好，这套大模型学习资料肯定对你有用
对于0基础小白入门：
如果你是零基础小白，想快速入门大模型是可以考虑的。
一方面是学习时间相对较短，学习内容更全面更会集。
二方面是可以根据这些资料规划勤学习计划和方向。
包罗：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型册本PDF。带你从零基础系统性的学好大模型！

页: [1]

qidao123.com技术社区-IT企服评测·应用市场's Archiver

大模型落地：GPU向上，NPU向下