英伟达Helix架构是基于Blackwell GPU平台的一种并行技术,它受DNA结构启发,通过分割显存和处理任务,有效突破了百万Token推理瓶颈,显著提升了大模型的上下文长度和并发能力,并降低了响应延迟。具体如下:创新的并行处理方式:Helix将模型Transformer层的注意力机制和前馈网络部分分开处理。它把KV、张量和专家等多个维度的并行性交织到一个统一的执行循环中,每个阶段在其自身的瓶颈配置下运行,同时复用相同的GPU池。KV并行技术:在注意力阶段,Helix使用名为KV并行(KVP)的新方法,将庞大的KV缓存分散到多个GPU上。通过将TP=2与KVP=2相结合形成2D布局,避免了因张量并行超过KV头数量时导致的内存和带宽开销增加。同时,KVP GPU持有与其本地KV头相关联的所有查询头,并冗余地计算QKV投影,确保模型推理精度。此外,KVP GPU之间沿着查询头维度进行单对单的全连接通信,通信成本和KV缓存大小无关,使得大模型上下文长度扩展到百万token时也不影响查询效率。重叠通信和计算:Helix通过重叠通信和计算来提高效率。一旦计算出一个token的注意力输出,就会启动该token的全对全交换,同时计算下一个token的注意力。这种方式将通信延迟隐藏在有用的工作之后,保持GPU利用率高,进一步加速实时解码。根据英伟达官网数据,使用DeepSeek - R1 671B模型测试时,在给定延迟下,Helix架构单GPU产出的token数是传统方法的32倍,可将并发用户数量提高高达32倍,且在低并发设置下能减少token与token间的最低延迟时间,提升用户交互体验。该技术有望重塑法律、客服、AI副驾等实时多轮交互应用,强化AI系统大规模在线部署能力。
|
|