AI重磅！华为“黑科技”来了_bob手机版网页/bob官网登录入口/bob电竞在线

AI重磅！华为“黑科技”来了

来源：bob手机版网页发布时间：2025-10-06 22:32:42

　　8月12日下午，华为正式对外发布AI推理“黑科技”UCM（推理回忆数据办理器），助力处理AI推理功率与使用者实在的体会的难题。

　　AI推理是AI工业鄙人一阶段的展开重心。AI工业已从“寻求模型才能极限”转向“寻求推理体会最优化”，推理体会直接相关用户满意度、商业可行性等中心需求，成为衡量AI模型价值的黄金标尺。

　　据悉，华为计划在9月开源UCM。到时，华为将在魔擎社区首发，后续逐渐贡献给业界干流推理引擎社区，并同享给一切Share Everything（同享架构）的存储厂商和生态同伴。

　　UCM是一款以KV Cache（键值缓存）为中心的推理加快套件，交融多类型缓存加快算法东西，能够分级办理推理过程中发生的KV Cache回忆数据，扩展推理上下文窗口，以完成高吞吐、低时延的推理体会，以此来下降每个Token（词元）的推理本钱。

　　KV Cache是一种用于优化核算功率、削减重复运算的关键技能，但要占用GPU（图形处理器）的显存存储前史KV（键值）向量，生成的文本越长，缓存的数据量越大。

　　跟着AI工业的展开迈入代理式AI年代，模型规划化扩张、长序列需求激增，以及推理使命并发量增加，导致AI推理的KV Cache容量增加，超出了显存的承载才能。

　　现在，国外抢先芯片厂商经过从硬件迭代到软件优化，再到生态绑定，构建起AI推理年代的“铁三角”，短期内难以被替代。中国企业在单点硬件技能上有所打破，但国产软件及生态适配仍有较大距离。

　　跟着信息技能使用立异工业的国产化改造提速，各行业逐渐意识到需求加快构建国产推理生态。UCM的中心价值在于供给更快的推理呼应、更长的推理序列等。

　　以供给更长的推理序列为例，UCM经过动态KV逐层卸载、方位编码扩展等组合技能，将超长序列的Cache（缓存）分层卸载至外置专业存储，使用算法打破模型和资源约束，完成10倍级推理上下文窗口扩展。

　　据悉，UCM可根据回忆热度在HBM、DRAM、SSD等存储介质中完成按需活动，一起交融多种稀少注意力算法完成存算深度协同，使长序列场景下TPS（每秒处理token数）提高2至22倍，以此来下降每个Token的推理本钱。

　　Token是AI模型中的根本数据单位。在练习过程中，AI大模型会学习符号Token之间的联系，然后履行推理并生成精确、相关的输出。

　　数据显现，国外干流AI大模型的单用户输出速度已进入200 Tokens/s区间（时延5ms），而我国干流AI大模型的单用户输出速度遍及小于60 Tokens/s（时延50至100ms）。

　　一起，跟着AI使用向各类实践场景深度浸透，用户规划和恳求量急剧攀升，模型剖析和生成的Token数出现指数级增加态势。

　　巨大的Token处理量意味着昂扬的运营本钱，包含服务器保护、电力耗费继续攀升等，而保证流通推理体会需求加大算力投入。

　　最大化的单Token智能承载力和优化本钱，成为很多厂商的中心深思远虑，而且Token经济年代降临，练习、推理功率与体会量纲都以Token为表征。

　　现在，华为AI推理加快计划结合UCM与华为AI存储（OceanStor A系列）技能，与中国银联展开才智金融AI推理加快使用试点，三大落地事务场景分别是客户之声、营销策划、工作帮手。

　　以工作帮手场景为例，经过使用华为AI推理加快计划，可一差二错用户输入超越17万Tokens的超长序列推理，防止超长序列模型推不动的问题。

上一篇: 我国现存仅有的人民公社记工分、分口粮人均收入5000多

联系我们: 电话：
0551-65316938; 传真：
0551-65320226; 邮箱：
ahqygk@163.com; 地址：
合肥市高新技术产业开发区创新大道98号