找回密码
 立即注册
搜索
日产 讴歌 福特 极氪 林肯 阿尔法 保时捷 奔腾 长城 东风 哈弗 Jeep 捷途 岚图 理想 兰博基尼 名爵 马自达 玛莎拉蒂 欧拉 奇瑞 smart 沙龙 坦克 特斯拉 蔚来 沃尔沃 小鹏 雪佛兰 高合 奥迪 丰田 本田 雷克萨斯 英菲尼迪 捷达 捷豹路虎 阿斯顿 马丁 罗密欧 标致 宾利 长安 法拉利 红旗 几何 凯迪拉克 领克 劳斯莱斯 路特斯 MINI 迈凯伦 哪吒 起亚 荣威 三菱 斯巴鲁 腾势 魏牌 五菱 现代 雪铁龙 宝骏 大众 宝马 比亚迪

华为发布AI推理创新技术

[XinWen.Mobi 原创复制链接分享]
xinwen.mobi 发表于 2025-8-13 08:21:32 | 显示全部楼层 |阅读模式
2025年8月12日,在金融AI推理应用落地与发展论坛上,华为发布了AI推理创新技术UCM(推理记忆数据管理器,Unified Cache Manager)。这是专门面向大模型推理过程的“缓存管理技术”,旨在优化推理速度、效率和成本。相关介绍如下:技术原理:UCM是一款以KV Cache为中心的推理加速套件,融合了多类型缓存加速算法工具。它通过分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。组件构成:UCM包括推理引擎插件(Connector)、功能库(Accelerator)、存取适配器(Adapter)三大组件。通过推理框架、算力、存储三层协同,实现AI推理“更优体验、更低成本”。技术优势:    降低首Token时延:依托UCM层级化自适应的全局前缀缓存技术,系统能直接调用KV缓存数据,避免重复计算,使首Token时延最大降低90%。    扩展推理上下文窗口:UCM将超长序列Cache分层卸载至外置专业存储,通过算法创新突破模型和资源限制,实现推理上下文窗口10倍级扩展,满足长文本处理需求。    提升长序列场景处理能力:UCM具备智能分级缓存能力,可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动,同时融合多种稀疏注意力算法,实现存算深度协同,使长序列场景下TPS(每秒处理token数)提升2-22倍,显著降低每Token推理成本。试点成果:华为携手中国银联率先在金融典型场景开展UCM技术试点应用。在中国银联“客户之声”业务场景下,借助UCM技术及工程化手段,大模型推理速度提升125倍,仅需10秒即可精准识别客户高频问题,促进了服务质量提升。开源计划:华为计划于2025年9月正式开源UCM,届时将在魔擎社区首发,后续逐步贡献给业界主流推理引擎社区,并共享给业内所有Share Everything(共享架构)存储厂商和生态伙伴,以推动AI推理生态的繁荣发展。
回复

使用道具 举报

日产 讴歌 福特 极氪 林肯 阿尔法 保时捷 奔腾 长城 东风 哈弗 Jeep 捷途 岚图 理想 兰博基尼 名爵 马自达 玛莎拉蒂 欧拉 奇瑞 smart 沙龙 坦克 特斯拉 蔚来 沃尔沃 小鹏 雪佛兰 高合 奥迪 丰田 本田 雷克萨斯 英菲尼迪 捷达 捷豹路虎 阿斯顿·马丁 罗密欧 标致 宾利 长安 法拉利 红旗 几何 凯迪拉克 领克 劳斯莱斯 路特斯 MINI 迈凯伦 哪吒 起亚 荣威 三菱 斯巴鲁 腾势 魏牌 五菱 现代 雪铁龙 宝骏 大众 宝马 比亚迪

QQ|标签|爬虫xml|爬虫txt|新闻魔笔科技XinWen.MoBi - 海量语音新闻! ( 粤ICP备2024355322号-1|粤公网安备44090202001230号 )

GMT+8, 2025-11-6 05:48 , Processed in 0.117756 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

消息来源网络

快速回复 返回顶部 返回列表