XinWen.Mobi»XinWen无线 › 新闻 › 海量 ›

华为发布AI推理创新技术

日产讴歌福特极氪林肯阿尔法保时捷奔腾长城东风哈弗 Jeep 捷途岚图理想兰博基尼名爵马自达玛莎拉蒂欧拉奇瑞 smart 沙龙坦克特斯拉蔚来沃尔沃小鹏雪佛兰高合奥迪丰田本田雷克萨斯英菲尼迪捷达捷豹路虎阿斯顿马丁罗密欧标致宾利长安法拉利红旗几何凯迪拉克领克劳斯莱斯路特斯 MINI 迈凯伦哪吒起亚荣威三菱斯巴鲁腾势魏牌五菱现代雪铁龙宝骏大众宝马比亚迪

返回列表发新帖

华为发布AI推理创新技术

[XinWen.Mobi 原创复制链接分享]

xinwen.mobi 发表于 2025-8-13 08:21:32 | 显示全部楼层 |阅读模式

▶ 语音朗读

2025年8月12日，在金融AI推理应用落地与发展论坛上，华为发布了AI推理创新技术UCM（推理记忆数据管理器，Unified Cache Manager）。这是专门面向大模型推理过程的“缓存管理技术”，旨在优化推理速度、效率和成本。相关介绍如下：技术原理：UCM是一款以KV Cache为中心的推理加速套件，融合了多类型缓存加速算法工具。它通过分级管理推理过程中产生的KV Cache记忆数据，扩大推理上下文窗口，以实现高吞吐、低时延的推理体验，降低每Token推理成本。组件构成：UCM包括推理引擎插件（Connector）、功能库（Accelerator）、存取适配器（Adapter）三大组件。通过推理框架、算力、存储三层协同，实现AI推理“更优体验、更低成本”。技术优势：降低首Token时延：依托UCM层级化自适应的全局前缀缓存技术，系统能直接调用KV缓存数据，避免重复计算，使首Token时延最大降低90%。扩展推理上下文窗口：UCM将超长序列Cache分层卸载至外置专业存储，通过算法创新突破模型和资源限制，实现推理上下文窗口10倍级扩展，满足长文本处理需求。提升长序列场景处理能力：UCM具备智能分级缓存能力，可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动，同时融合多种稀疏注意力算法，实现存算深度协同，使长序列场景下TPS（每秒处理token数）提升2-22倍，显著降低每Token推理成本。试点成果：华为携手中国银联率先在金融典型场景开展UCM技术试点应用。在中国银联“客户之声”业务场景下，借助UCM技术及工程化手段，大模型推理速度提升125倍，仅需10秒即可精准识别客户高频问题，促进了服务质量提升。开源计划：华为计划于2025年9月正式开源UCM，届时将在魔擎社区首发，后续逐步贡献给业界主流推理引擎社区，并共享给业内所有Share Everything（共享架构）存储厂商和生态伙伴，以推动AI推理生态的繁荣发展。

推理, UCM, 技术, 缓存, AI

		自动登录	找回密码
密码			立即注册

华为发布AI推理创新技术

华为发布AI推理创新技术

相关帖子