XinWen.Mobi»XinWen无线 › 新闻 › 海量 ›

英伟达Helix架构突破百万Token推理瓶颈

日产讴歌福特极氪林肯阿尔法保时捷奔腾长城东风哈弗 Jeep 捷途岚图理想兰博基尼名爵马自达玛莎拉蒂欧拉奇瑞 smart 沙龙坦克特斯拉蔚来沃尔沃小鹏雪佛兰高合奥迪丰田本田雷克萨斯英菲尼迪捷达捷豹路虎阿斯顿马丁罗密欧标致宾利长安法拉利红旗几何凯迪拉克领克劳斯莱斯路特斯 MINI 迈凯伦哪吒起亚荣威三菱斯巴鲁腾势魏牌五菱现代雪铁龙宝骏大众宝马比亚迪

返回列表发新帖

英伟达Helix架构突破百万Token推理瓶颈

[XinWen.Mobi 原创复制链接分享]

xinwen.mobi 发表于 2025-7-23 04:18:05 | 显示全部楼层 |阅读模式

▶ 语音朗读

英伟达Helix架构是基于Blackwell GPU平台的一种并行技术，它受DNA结构启发，通过分割显存和处理任务，有效突破了百万Token推理瓶颈，显著提升了大模型的上下文长度和并发能力，并降低了响应延迟。具体如下：创新的并行处理方式：Helix将模型Transformer层的注意力机制和前馈网络部分分开处理。它把KV、张量和专家等多个维度的并行性交织到一个统一的执行循环中，每个阶段在其自身的瓶颈配置下运行，同时复用相同的GPU池。KV并行技术：在注意力阶段，Helix使用名为KV并行（KVP）的新方法，将庞大的KV缓存分散到多个GPU上。通过将TP=2与KVP=2相结合形成2D布局，避免了因张量并行超过KV头数量时导致的内存和带宽开销增加。同时，KVP GPU持有与其本地KV头相关联的所有查询头，并冗余地计算QKV投影，确保模型推理精度。此外，KVP GPU之间沿着查询头维度进行单对单的全连接通信，通信成本和KV缓存大小无关，使得大模型上下文长度扩展到百万token时也不影响查询效率。重叠通信和计算：Helix通过重叠通信和计算来提高效率。一旦计算出一个token的注意力输出，就会启动该token的全对全交换，同时计算下一个token的注意力。这种方式将通信延迟隐藏在有用的工作之后，保持GPU利用率高，进一步加速实时解码。根据英伟达官网数据，使用DeepSeek - R1 671B模型测试时，在给定延迟下，Helix架构单GPU产出的token数是传统方法的32倍，可将并发用户数量提高高达32倍，且在低并发设置下能减少token与token间的最低延迟时间，提升用户交互体验。该技术有望重塑法律、客服、AI副驾等实时多轮交互应用，强化AI系统大规模在线部署能力。

GPU, KV, token, Helix, 并行

		自动登录	找回密码
密码			立即注册

英伟达Helix架构突破百万Token推理瓶颈

英伟达Helix架构突破百万Token推理瓶颈

相关帖子