反转基因福娃 发表于 2024-8-28 02:45:18

2024年Arm最新处理器架构分析——X925和A725

关键词:X925、A725、3nm
1、引言
2024年5月,Arm一年一度的新处理器架构更新准期而至。今年是Arm超级大核心X计划的第五代产品,原来按照命名规则应该叫X5,但是这次Arm修改了命名规则,和A系列的命名规则做了一个对齐,新的名称叫做X925,A系列大核心新产品的名称叫做A725,小核心没有更新架构,还是A520。今年Arm新架构的指令集保持和上一年一样,还是Armv9.2架构。因为高通计划在今年采用自研架构处理器,所以预计MTK会先用上搭载X925核心的处理器。命名上,今年的X925,代号叫Blackhawk(黑鹰),A725的代号则叫做Chaberton(夏波顿,法国的一座山名)。
https://img-blog.csdnimg.cn/img_convert/2a0d6a5b04c8614f2d7f700afe1cdee9.png           
https://img-blog.csdnimg.cn/img_convert/6dbd22dbc49c1c7719f4eac1d5f9c648.png         
2、Arm的CSS方案
在2023年的TCS上,Arm就推行了CSS(Compute Subsystem)方案,我明白是一个和芯片厂商深入合作开辟办理先辈工艺适配的办理方案,可以基于3nm工艺和Armv9的技能,快速适配Android系统并优化AI等方案,具备高效整合CPU和GPU的本领,如将频率推高到3.6GHz以上(参考客岁4nm的天玑9200+可以跑到3.35GHz),以及深入开展3nm的PPA优化等等。
https://img-blog.csdnimg.cn/img_convert/71b609e6e29d019fe1fe68b8a54bc5d0.png    
3、3nm工艺制程
今年开始,Android阵营的旗舰处理器工艺逐步向3nm迁徙,为半导体工业带来了更多的机遇和挑衅。从前期苹果A17系列体现看,3nm依旧是一个乐成的工艺制程,而且3nm还会逐步从N3升级N3E、N3P等更良好的工艺制程。但是,从已经非常成熟的4nm向新的3nm迁徙,需要花费更多的时间、款项,也会遇到更多的题目,这也是Arm推CSS计划团结厂商一起设计的部门原因。况且3nm相比4nm有多少幅度的提升,仍然需要时间和更多产品的实际数据来检验。
https://img-blog.csdnimg.cn/img_convert/8ee3f823d3335f3e1be8bdaf54bb2364.png
https://img-blog.csdnimg.cn/img_convert/357776031d49149473060c91f38cac4c.png 从图中看,为新工艺准备,Arm在3-4年前,就要开启相关产品的ISA和IP设计了。  
https://img-blog.csdnimg.cn/img_convert/a040eb55eb37d6dad24e3dfe95416837.png
4、整体介绍
今年Arm参考设计中一个明显改变是大核心多了,相比传统的1+3+4架构,今年Arm的参考设计是2个X925+4个A725+2个A520的2+4+2架构。看下数据,Arm宣称X925的极限性能可以提升36%(是基于3.6GHz频率上的)。能效上则重点突出A725,相比A720可以改善35%。功耗呢,今年的A520固然架构没有变,但是凭借3nm的工艺,也可以节省20%。DSU的型号还是120,可支持14核心(14个X925安排上吧),新引入了更多级动态缓存控制开关,负载功耗也可以优化多至50%。
https://img-blog.csdnimg.cn/img_convert/0acbc973040e414218007fdca36089ad.png
5、X925微架构分析
Cortex-X系列的整体基调是偏向性能,履历了5年的微架构升级,也变得难有大幅度的微架构调解,至少从微架构上看和上一代的X4并没有颠覆性的改变。针对X系列的优化,Arm提出了三个优化路线,第一是面向用户负载优化,而不是单纯提升人工设计场景(如benchmark);第二是尽大概利用高带宽进步吞吐率,这一点从X系列的流水线宽度和运算单元数目上可见一斑;第三是优化前端预取和后端缓存本领,提升数据和指令实行读写效率。         
https://img-blog.csdnimg.cn/img_convert/9b5c8dc465f6fd7f7618b391850c535c.png
https://img-blog.csdnimg.cn/img_convert/d3032577bde30f62c891665ab2441e6a.png
为了让大家更好相识X925的变化,我把X4的图也贴了上来对比参考,这次X925具体优化如下:
5-1、前端设计
预取指模块的优化,在图中前端部门,首先看指令的Predecode Fetch Buffer,这个尺寸增长了一倍,从32B提升到64B,利益是让更多的指令可以处于待命状态,随时进入decoder。    
分支预测模块的优化,优化分支预测模块镌汰预测错误分支,提升实行路径的流畅性和IPC。此外还提到了如采用了“fold out unconditional direct branches”等技能方案,对无条件直接分支举行优化。无条件直接分支其实并不需要预测,但是由于还是需要编码和确认地址,因此分支预测器还是存在停顿(Stall)的风险,最好可以直接获取地址并跳转,而且需要制止Cache和TBL缺失。
L1指令带宽的优化,看图中的L1带宽宽度,L1的指令带宽从32Byte增长到64Byte,iTLB也增长到原来的2倍,用来提升指令的编码性能。
https://img-blog.csdnimg.cn/img_convert/243a1afd2cdf7584bbeaa0cf4d43764c.png
5-2、后端设计
实行单元方面X925相比X4变化不大,最重要的变化是新增长了一个LD AGU单元。这里网络上的信息存在说法不一致情况,Wikichip的图片体现是新增长了一个LD AGU单元,而Cardyak提供的微架构图则体现是从一个ST AGU变成了ST/LD AGU。无论哪种说法,实际上X4的AGU是2ST+3LD,X925则是2ST+4LD,变化点是多了一路LD本领。这几代X系列一直在寻找LD和ST之间的平衡,从图中看X1是2ST+3LD,厥后经过几次调解,X4又回到了2ST+3LD,X925则增长到了2ST+4LD,看来Arm以为还是需要提升硬件LD单元的占比。    
此外,前端我们提到L1指令带宽翻倍,后端L1的数据带宽也同样从32Byte增长一倍,达到64Byte。同时,X925可以支持的L2缓存大小,也从X4的2MB提升到3MB。
https://img-blog.csdnimg.cn/img_convert/3117e03383a49c9897995dd47ebc5411.png
后端上最大的变化是重排序缓冲(ROB)的尺寸增大了一倍,从384增长到了768,我以为这也是今年X925最重要的改变。我还特意查了一下苹果A17大核心的ROB尺寸是670,这次X925的ROB尺寸终于超过了苹果A17的大核心。通过增大ROB的尺寸,可以显著提升乱序实行(OoO)的本领,Arm宣称可以提升25-40%的乱序实行本领。
Reorder Buffer
uArch
Cortex-X1
Cortex-X2
Cortex-X3
Cortex-X4
Cortex-X925
Dispatch
8/cycle
8/cycle
8/cycle
10/cycle
10/cycle
Max In-flight
224
288
320
384
768
    如表格体现不全,可手机横屏查看完备内容。            
https://img-blog.csdnimg.cn/img_convert/ad4c91db22f1929746fc369c85e27c24.png
5-3、实行单元
在实行单元方面,面向不停增长的AI类和矢量类运算,X925这次新增了2路SIMD/FP运算单元,从X4的4路提升到6路。在整型ALU运算单元方面,原来只能实行单周期操纵,经过优化后,X925可以支持更复杂的双周期操纵。此外,整型乘法单元从2个提升到4个,浮点比较单元从1个提升到2个。这些改进都是针对用户一样平常利用的活动举行的调解和优化。
https://img-blog.csdnimg.cn/img_convert/c57f254cca25213c398d3a49e5d479e7.png
https://img-blog.csdnimg.cn/img_convert/acb324da8d84d43fc9dcfd0d01d4daf9.png
5-4、性能体现
2024年,Arm再一次给我们带来了X系列的最强核心,凭借3nm工艺的加持,这一代处理器性能继续有大幅度的提升,而CPU主频则可以运行在3.8GHz甚至4.0GHz之上。Arm的数据体现,运行在3.8GHz且做了完备优化的IPC,最多可以比上一代提升36%的IPC性能。从图中看,约25%的性能提升来自主频提升到3.8GHz,若不思量频率提升单看微架构,预计有11%左右的提升,下图Arm以Geekbench6为例,以为微架构约有15%的提升。    
总体看,这次X925的提升重要在3nm工艺带来的更高频率,ROB大幅度增长改善的OoO性能,以及新增的ALU运算单元和L1位宽的增长等。不过今年的处理器市场,苹果会迭代自己独立设计的A系列核心,高通也开始利用自己设计的核心处理器,X925面对的竞争对手更多,具体市场体现如何,让我们拭目以待采用X925的产品体现。
https://img-blog.csdnimg.cn/img_convert/230f25e0d70cd654a8e58be1baedd1f4.png
https://img-blog.csdnimg.cn/img_convert/cf3b624d575ac5d483a012e193170bea.png
6、A725和A520    
除了超级大核心X925,Arm今年也带来了全新的A725大核心Chaberton,A725相比A720变化不是很大,目前并没有看到A725的具体微架构图,只能通过Arm的资料相识变化细节。
首先是ROB尺寸变大了,还记得A715的ROB大小是192,A720没有改变还是192,目前可以得到信息是A725的ROB肯定要大于192,具体是多少今年还要遗留一个悬念。此外,因为增大了ROB的尺寸,所以指令实行队列深度也会相应有增长。
第二个变化点是L2的缓存,整年的A720可以支持128KB, 256KB, 512KB三种设置,今年的A725增长了1MB的L2缓存选项。这一点其实挺重要,因为岂论是苹果的A系列处理器,还是高通今年的自研处理器,今年都在卷L2缓存的尺寸大小,因为大缓存一直是一个处理器性能提升的热门,固然代价会相应提升。
此外,Arm还提到这次的A725也针对3nm做了针对性优化,能效上借助3nm的加持,能效上相比上一代一连提升。
https://img-blog.csdnimg.cn/img_convert/070140a2cdd823e9032992c486dd5aa8.png    
https://img-blog.csdnimg.cn/img_convert/c19a3c4b6b3616a1822590f95d4a31bd.png
末了是A520小核心,固然今年没有更新微架构,但是实现上针对3nm工艺做了肯定的改进,Arm宣称在能效上有15%左右的改善。        
https://img-blog.csdnimg.cn/img_convert/ea26eba714e60732ba33b5e934770d43.png
7、总结
本文重要介绍了Arm公司在2024年发布的最新处理器X925和A725的架构变化。随着Armv9体系的深度演进,我们看到Arm的X系列和A系列架构也变得更加成熟,但是在微架构上也较难看到有大幅度的提升。    
2024年最重要关注点应该属于3nm工艺制程的演进,这次Arm会将3nm工艺推广到Android系统的主流芯片厂商,从文中也可以看到,Arm的每款架构均针对3nm做了特定的适配优化,而且Arm还提出CSS方案来帮助芯片厂商更好的开辟和适配基于最新工艺的SOC产品。
末了谈一下竞争,2024年,在主流智能设备SOC的赛道上新增了高通的自研处理器Oryon,Arm的Cortex系列处理器的竞争对手从原来和苹果A系列的两强争霸,到现在的的三国演义,竞争无疑是更加猛烈的。从当前网络上的一些数据看,苹果的A系列处理器和高通的Oryon处理器都在走大缓存路线,固然今年Arm也提升了缓存的支持容量,仍然稍有保守。不过,大缓存也意味着芯片面积的增长,会带来高昂的芯片本钱。所以,最终这三家芯片的体现如何,还是要让我们用2024年旗舰的智能手机产品来验证。也要感谢Arm的产品线不停更新,市场的良性竞争和良好SOC的出现,让用户可以不停用到速度更快、性能更强的处理器产品。
往期文章回顾链接:
1、从A76到A78——在变化中学习ARM微架构
2、Arm微架构学习系列2——开启Armv9时代
3、Arm微架构分析系列3——Arm的X计划
4、2023年Arm最新处理器架构分析——X4、A720和A520
参考链接
1、https://fuse.wikichip.org/news/7048/n3e-replaces-n3-comes-in-many-flavors/
2、https://www.anandtech.com/show/18833/tsmc-details-3nm-evolution-n3e-on-schedule-n3p-n3x-deliver-five-percent-gains
3、https://fuse.wikichip.org/news/7761/arm-launches-next-gen-flagship-cortex-x925/
4、https://www.anandtech.com/show/21399/arm-unveils-2024-cpu-core-designs-cortex-x925-a725-and-a520-arm-v9-2-redefined-for-3nm-
5、https://x.com/Cardyak/status/1796859564500890107




virtio假造化框架概述

Binder驱动中的流程详解

ANR题目产生原理和分析思路总结

https://img-blog.csdnimg.cn/img_convert/3d5fabe2d07f1254edc3809923d80838.gif
长按关注内核工匠微信
Linux内核黑科技| 技能文章| 精选教程

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 2024年Arm最新处理器架构分析——X925和A725