找回密码
 立即注册
搜索
日产 讴歌 福特 极氪 林肯 阿尔法 保时捷 奔腾 长城 东风 哈弗 Jeep 捷途 岚图 理想 兰博基尼 名爵 马自达 玛莎拉蒂 欧拉 奇瑞 smart 沙龙 坦克 特斯拉 蔚来 沃尔沃 小鹏 雪佛兰 高合 奥迪 丰田 本田 雷克萨斯 英菲尼迪 捷达 捷豹路虎 阿斯顿 马丁 罗密欧 标致 宾利 长安 法拉利 红旗 几何 凯迪拉克 领克 劳斯莱斯 路特斯 MINI 迈凯伦 哪吒 起亚 荣威 三菱 斯巴鲁 腾势 魏牌 五菱 现代 雪铁龙 宝骏 大众 宝马 比亚迪

英伟达Helix架构突破百万Token推理瓶颈

[XinWen.Mobi 原创复制链接分享]
xinwen.mobi 发表于 2025-7-23 04:18:05 | 显示全部楼层 |阅读模式
英伟达Helix架构是基于Blackwell GPU平台的一种并行技术,它受DNA结构启发,通过分割显存和处理任务,有效突破了百万Token推理瓶颈,显著提升了大模型的上下文长度和并发能力,并降低了响应延迟。具体如下:创新的并行处理方式:Helix将模型Transformer层的注意力机制和前馈网络部分分开处理。它把KV、张量和专家等多个维度的并行性交织到一个统一的执行循环中,每个阶段在其自身的瓶颈配置下运行,同时复用相同的GPU池。KV并行技术:在注意力阶段,Helix使用名为KV并行(KVP)的新方法,将庞大的KV缓存分散到多个GPU上。通过将TP=2与KVP=2相结合形成2D布局,避免了因张量并行超过KV头数量时导致的内存和带宽开销增加。同时,KVP GPU持有与其本地KV头相关联的所有查询头,并冗余地计算QKV投影,确保模型推理精度。此外,KVP GPU之间沿着查询头维度进行单对单的全连接通信,通信成本和KV缓存大小无关,使得大模型上下文长度扩展到百万token时也不影响查询效率。重叠通信和计算:Helix通过重叠通信和计算来提高效率。一旦计算出一个token的注意力输出,就会启动该token的全对全交换,同时计算下一个token的注意力。这种方式将通信延迟隐藏在有用的工作之后,保持GPU利用率高,进一步加速实时解码。根据英伟达官网数据,使用DeepSeek - R1 671B模型测试时,在给定延迟下,Helix架构单GPU产出的token数是传统方法的32倍,可将并发用户数量提高高达32倍,且在低并发设置下能减少token与token间的最低延迟时间,提升用户交互体验。该技术有望重塑法律、客服、AI副驾等实时多轮交互应用,强化AI系统大规模在线部署能力。
回复

使用道具 举报

日产 讴歌 福特 极氪 林肯 阿尔法 保时捷 奔腾 长城 东风 哈弗 Jeep 捷途 岚图 理想 兰博基尼 名爵 马自达 玛莎拉蒂 欧拉 奇瑞 smart 沙龙 坦克 特斯拉 蔚来 沃尔沃 小鹏 雪佛兰 高合 奥迪 丰田 本田 雷克萨斯 英菲尼迪 捷达 捷豹路虎 阿斯顿·马丁 罗密欧 标致 宾利 长安 法拉利 红旗 几何 凯迪拉克 领克 劳斯莱斯 路特斯 MINI 迈凯伦 哪吒 起亚 荣威 三菱 斯巴鲁 腾势 魏牌 五菱 现代 雪铁龙 宝骏 大众 宝马 比亚迪

QQ|标签|爬虫xml|爬虫txt|新闻魔笔科技XinWen.MoBi - 海量语音新闻! ( 粤ICP备2024355322号-1|粤公网安备44090202001230号 )

GMT+8, 2025-11-6 02:56 , Processed in 0.083228 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

消息来源网络

快速回复 返回顶部 返回列表