您的当前位置:首页 > 知识 > 华为发布AI推理创新技术UCM:实现高吞吐、低时延推理体验,降低每Token推理成本 正文
时间:2025-08-23 23:52:37 来源:网络整理 编辑:知识
新浪科技讯 8月12日下午消息,在2025金融AI推理应用落地与发展论坛上,华为联合中国银联共同发布AI推理创新技术UCM推理记忆数据管理器),实现高吞吐、低时延的推理体验。在当今数字化时代,AI发展
新浪科技讯 8月12日下午消息,发布在2025金融AI推理应用落地与发展论坛上,推理吞吐n推华为联合中国银联共同发布AI推理创新技术UCM(推理记忆数据管理器),创新实现高吞吐、技术低时延的现高推理体验。
在当今数字化时代,低时低AI发展日新月异。延推验降大模型训练的理体理成热潮尚未消退,AI推理体验却已悄然成为AI应用的发布关键。中信建投在2025WAIC期间发布的推理吞吐n推白皮书指出,AI正从训练向推理的创新结构性转变而快速增长。在这样的技术大背景下,AI推理体验的现高重要性愈发凸显。
推理体验直接关系到用户与AI交互时的低时低感受,包括回答问题的延推验降时延、答案的准确度以及复杂上下文的推理能力等方面。资料显示,国外主流模型的单用户输出速度已进入200 Tokens/s区间(时延5ms),而我国普遍小于60Tokens/s(时延50 - 100ms),如何解决推理效率与用户体验的难题迫在眉睫。
据介绍,华为此次发布的AI推理创新技术UCM(推理记忆数据管理器),作为一款以KV Cache为中心的推理加速套件,其融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。
责任编辑:郭栩彤
六年级英语作文:Englishteacher2025-08-23 23:22
快车道革命:大行技术重塑折叠车骑行速度,引领绿色出行新纪元2025-08-23 22:34
乌称使用无人机袭击俄鞑靼斯坦共和国无人机存储仓库2025-08-23 22:29
用最简单的方法做出美味肉荤:腐竹红烧肉2025-08-23 22:26
2023年上海卷英语真题英语作文2025-08-23 22:15
世界机器人大会在京举行 为人们描绘出“机”智生活的美好图景2025-08-23 21:50
新BMW M4纽博格林官方合作限量版来了2025-08-23 21:46
精灵:开局埋伏小星云2025-08-23 21:45
视频生成模型大幅降价,百度为何如此激进?2025-08-23 21:31
教师年度考核个人述职报告优质2025-08-23 21:22
东契奇中文欢迎杨瀚森进入NBA 称会给他手机号2025-08-23 23:19
EA总裁暗示:更多迪士尼和漫威游戏正在开发中!2025-08-23 23:13
从专业装备到生活方式,迪卡侬以多维布局引领中国户外消费升级2025-08-23 23:01
综漫:我的日常并不平静2025-08-23 22:33
电子集体“跳水”,如何点亮世界?2025-08-23 22:22
"中智杯"银球争锋:34家名企精英乒乓赛场激情过招2025-08-23 22:01
soul距离显示关掉了怎么打开2025-08-23 21:42
F1 CEO发表声明:修订后的2020赛季将有152025-08-23 21:30
钉钉联手通义实验室发布Fun2025-08-23 21:08
Chuck Todd says Democratic Party hasn't 'lost enough' to change course2025-08-23 21:06