找回密码
 立即注册
搜索
日产 讴歌 福特 极氪 林肯 阿尔法 保时捷 奔腾 长城 东风 哈弗 Jeep 捷途 岚图 理想 兰博基尼 名爵 马自达 玛莎拉蒂 欧拉 奇瑞 smart 沙龙 坦克 特斯拉 蔚来 沃尔沃 小鹏 雪佛兰 高合 奥迪 丰田 本田 雷克萨斯 英菲尼迪 捷达 捷豹路虎 阿斯顿 马丁 罗密欧 标致 宾利 长安 法拉利 红旗 几何 凯迪拉克 领克 劳斯莱斯 路特斯 MINI 迈凯伦 哪吒 起亚 荣威 三菱 斯巴鲁 腾势 魏牌 五菱 现代 雪铁龙 宝骏 大众 宝马 比亚迪

灵衢:华为重构算力底座的“超级协议”

[XinWen.Mobi 原创复制链接分享]
xinwen.mobi 发表于 4 天前 | 显示全部楼层 |阅读模式
灵衢:华为重构算力底座的“超级协议”
万卡集群如一台计算机,华为灵衢正让这一切从理想走向现实。

在算力需求呈指数级增长的今天,AI大模型动辄需要千万亿次计算,传统数据中心架构已面临严峻挑战。当集群规模扩大,传统“服务器堆叠和以太网联接”模式会导致算力利用率不升反降,甚至训练中断频发。

华为在2025年全联接大会上交出了他的答卷——灵衢(UnifiedBus)互联协议。

这一协议并非单纯的硬件升级,而是华为对计算系统架构的深度重构,它试图从根本上破解“规模越大,效率越低”的算力魔咒。

01 算力困境:规模与效率的悖论
“集群规模越大,算力利用率越低”——这是传统数据中心的真实写照。

在传统架构中,成千上万个计算单元需要为同一个训练任务进行高频、海量的数据同步时,网络带宽不足、时延大的问题会迅速凸显。

其结果是,大量计算单元不是在计算,而是在“等待”数据。

在万亿模型训练中,约有40%的时间,计算在空等通信。任何一个节点的故障都可能引发连锁反应,导致动辄耗时数周的训练任务中断。

更核心的问题在于,单芯片的算力天花板日益明显。多样化算力协同成为行业共识,但不同厂商的硬件组件协议不互通,需要额外的“翻译”成本,软件生态碎片化,难以形成规模化效应。

02 灵衢突破:从“堆叠”到“融合”
华为集群计算总经理朱照生表示,华为早在数年前就明确了核心战略:通过超节点与互联技术,突破单芯片算力瓶颈,提升整个计算系统的价值。

灵衢协议的研发,正是基于对计算系统四大核心痛点的深刻洞察:

性能线性度难题:传统系统在扩展时性能无法随节点数量同步增长

系统可用性挑战:节点扩大后运行可靠性下降,故障恢复效率低

资源利用率瓶颈:内存、带宽、计算资源分散,无法高效调度

产业协同壁垒:不同厂商硬件协议不互通,软件生态碎片化

灵衢的核心创新,在于打破了计算机网络与计算机体系结构的“墙”,构建了一套融合两者优势的协议栈。

从协议栈结构来看,灵衢呈现出鲜明的“双层基因”:底层保留计算机网络的成熟概念,但进行了针对性创新;上层则融入计算机体系结构的灵魂,提供与传统架构一致的编程入口。

03 超节点架构:让万卡集群如一台机器
基于灵衢协议,华为开创了超节点架构,具备资源池化、规模扩展、长稳可靠的关键特性。

超节点架构的核心思想是“融合”——物理上由多台机器组成,但逻辑和使用上可看做单一设备。

它通过大带宽、低时延的互联网络,将计算单元、存储单元等组件平等互联,并统一通信协议与内存编址,实现全局资源池化。

华为董事、ICT BG CEO杨超斌在华为全联接大会上表示:“基于灵衢互联协议,华为创新了超节点架构,可将多台物理机器深度互联,实现逻辑层面像一台机器一样学习、思考与推理。”

灵衢协议针对超节点互联的长距离高可靠、大带宽低时延难题,通过全栈技术创新实现“万卡超节点,一台计算机”。

该协议在物理层到传输层引入高可靠机制,光路支持百纳秒级故障切换,光互联可靠性提升100倍、距离超200米;同时突破多端口聚合等技术,实现TB级带宽与2.1微秒时延。

04 产业落地:从实验室到千行万业
经过数年迭代,灵衢已从实验室走向商用,形成两大典型部署形态,兼顾兼容性与创新性。

所有组件通过灵衢协议直接互联的原生超节点部署,以及通过UBOE模式兼容现有基础设施的部署方式。

目前,华为已推出基于灵衢和超节点架构的系列产品,覆盖从大型数据中心到企业级数据中心的全场景算力需求:

Atlas 950 SuperPoD:面向超大型AI计算任务的全液冷解决方案,支持8192张昇腾卡无收敛全互联

Atlas 850:业界首个企业级风冷AI超节点服务器,首次将超节点架构带入标准风冷机房

Atlas 350 标卡:支持4个灵衢端口互联,实现算力、内存等资源池化

TaiShan 950 SuperPoD:业界首款通算超节点,为数据库、虚拟化等业务场景提供超低时延

华为将超节点技术引入通用计算领域,推出全球首个通用计算超节点,天然适合共享大内存、分布式数据库、大数据分析和低延迟大流量的业务,未来可用于金融、电信等行业。

在数据库场景,以灵衢互联为基础形成内存池化能力和超低时延,大幅提升事务处理性能,实现数据库 tpmC性能1.9倍提升;在虚机热迁移场景,通过Full mesh全互联的架构实现超大带宽,将迁移时间从100毫秒降到50毫秒,业务无感知。

05 生态共建:从技术优势到产业标准
在发布硬件产品之余,华为强调的是“硬件开放、软件开源”的生态战略。

华为宣布对外开放灵衢2.0技术规范,徐直军也表示,希望产业链基于灵衢积极研发相关产品和部件,共建灵衢开放生态。

这一开放策略有意通过标准化互联协议,降低集群计算生态的碎片化,推动形成规模化、可互操作的算力基础设施体系。

在软件层面,操作系统灵衢组件也将全部开源,组件代码将陆续合入openEuler等多个上游操作系统开源社区。

用户可以根据实际需求,将部分或全部源代码集成到现有操作系统中,自行迭代维护版本。

北京大学计算机学院软件科学与工程系主任谢涛认为,“互联协议是超节点集群的‘神经中枢’,华为选择开放灵衢,有望定义下一代算力集群的互联标准。”

06 未来展望:算力生态的无边界扩展
当被问及“超节点是否越大越好”时,华为的回答展现了对产业趋势的判断:超节点规模无固定“甜点”。

华为计划2026年底将灵衢超节点规模提升至8192卡,后续逐步扩展至15488卡,目的是为模型厂商提供无约束的硬件平台。

从更长远来看,灵衢的意义不仅在于技术创新,更在于推动算力产业的“范式转移”:过去,算力基础设施的核心是“单芯片性能竞赛”;未来,“系统协同效率”将成为竞争关键。

当不同厂商的硬件能通过统一协议无缝协同,当软件开发者能自由调度全量池化资源,整个算力产业将摆脱“碎片化”困境,进入“协同创新”的新阶段。

在华为的蓝图中,灵衢不仅仅是互联协议,更是算力基础设施的“普通话”,它让所有硬件组件能够用同一种语言交流。

随着灵衢协议的开放与开源,一个更加广阔的算力图景正在展开:任何厂商的硬件都能即插即用,软件开发者无需关心底层硬件差异,可以自由调度池化资源。

从城市算网到企业机房,从AI训练到通用计算,灵衢正悄然重塑算力世界的底层逻辑。

回复

使用道具 举报

日产 讴歌 福特 极氪 林肯 阿尔法 保时捷 奔腾 长城 东风 哈弗 Jeep 捷途 岚图 理想 兰博基尼 名爵 马自达 玛莎拉蒂 欧拉 奇瑞 smart 沙龙 坦克 特斯拉 蔚来 沃尔沃 小鹏 雪佛兰 高合 奥迪 丰田 本田 雷克萨斯 英菲尼迪 捷达 捷豹路虎 阿斯顿·马丁 罗密欧 标致 宾利 长安 法拉利 红旗 几何 凯迪拉克 领克 劳斯莱斯 路特斯 MINI 迈凯伦 哪吒 起亚 荣威 三菱 斯巴鲁 腾势 魏牌 五菱 现代 雪铁龙 宝骏 大众 宝马 比亚迪

QQ|标签|爬虫xml|爬虫txt|新闻魔笔科技XinWen.MoBi - 海量语音新闻! ( 粤ICP备2024355322号-1|粤公网安备44090202001230号 )

GMT+8, 2025-10-27 16:23 , Processed in 0.119631 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

消息来源网络

快速回复 返回顶部 返回列表