欢迎智算新挑战,天翼云亮相全球架构师峰会!

打印 上一主题 下一主题

主题 783|帖子 783|积分 2349

克日,ArchSummit全球架构师峰会在深圳审慎开幕,本次大会以“智能进阶. 架构重塑”为主题,探究AI海潮下,企业架构怎样适应大模型和云原生的期间趋势,探求既有应用成果又有成本效益的解决方案。国表里100余名顶尖专家齐聚一堂,围绕AI、大模型、云原生等话题睁开深度交换。天翼云云网产物事业部研发专家黄坚受邀参会,并在“智算平台建设与应用实践”专题会上发表主题演讲,分享了天翼云在超大规模智算集群运维及管理方面的创新思路和实践经验。
 
天翼云云网产物事业部研发专家 黄坚

大模型期间

超大规模智算集群运维面临新挑战

随着大模型风潮来袭,加快建设超大规模智算集群,已成为加强多元算力供给的重要步伐。与传统云原生大规模场景相比,超大规模智算集群的管理复杂度和难度更高。黄坚表现,当前,在充分发挥超大规模智算集群的算力方面,整个行业还面临着诸多挑战:
首先,智算业务与底层算力高耦合。在基于transformer衍生出来的智算生态中,要求最大化使用底层算力,这就要求从业者既要懂算法,又要懂算力,同时必要具备结合算法算力的工程化头脑,从算子优化、算子融合、并行计算等多个方向提升算力的使用效率。
其次,硬件无明确异常指标,定位难度大。固然通过监控可以覆盖一些明显的软硬件题目,但更多类似于光模块故障等题目,必要综合光衰、温度、功耗等多个维度,并结合业务异常,才能实现准确定位。
再次,一样平常管理复杂度高。超大规模智算集群规模大、数量多,怎样实现百万量级元器件的体系化、模块化、周期化管理,并与业务方进行有效协同,是运维的难点。
作为云服务国家队,天翼云加强核心技术自主研发,积极探索超大规模智算集群运维之道,不停升级产物和生态矩阵,为AI开发者提供“供得上、用得起、用得好”的智算服务。
实践与创新并举

国云底座赋能智算云生态建设

在平台层面
天翼云全新升级一体化计算加快平台“云骁”,“云骁”具备超大规模集群管理、运营和算力加快能力,可提供通智超一体化服务,集“异构计算+高速存储+无损网络+算力加快+高效运营”五大能力于一体,让智算更快、更稳。
在算力层面
天翼云加快推进多条理智算算力布局,打造万卡级超大规模智算中央,满足快速增长的智算算力需求。目前,天翼云上海临港国产万卡算力池已正式启用,这不仅是国内首/个投入正式运营的国产单池万卡液冷算力集群,也是业内领先的全国产化云智一体公共智算中央,创新性采用网络中置、算力分层的“魔方”型组网,实现了单一集群内万卡高速互联,满足万亿级参数大模型练习所需的多机多卡并行、高吞吐无损通讯等需求。
未来,天翼云将连续对峙科技创新,深耕云智一体,不停夯实国云智算底座,为数字经济发展与数字中国建设注入澎湃动能。
 

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

羊蹓狼

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表