AI重磅!华为“黑科技”来了

  8月12日下午,华为正式对外发布AI推理“黑科技”UCM(推理回忆数据办理器),助力处理AI推理功率与使用者实在的体会的难题。

  AI推理是AI工业鄙人一阶段的展开重心。AI工业已从“寻求模型才能极限”转向“寻求推理体会最优化”,推理体会直接相关用户满意度、商业可行性等中心需求,成为衡量AI模型价值的黄金标尺。

  据悉,华为计划在9月开源UCM。到时,华为将在魔擎社区首发,后续逐渐贡献给业界干流推理引擎社区,并同享给一切Share Everything(同享架构)的存储厂商和生态同伴。

  UCM是一款以KV Cache(键值缓存)为中心的推理加快套件,交融多类型缓存加快算法东西,能够分级办理推理过程中发生的KV Cache回忆数据,扩展推理上下文窗口,以完成高吞吐、低时延的推理体会,以此来下降每个Token(词元)的推理本钱。

  KV Cache是一种用于优化核算功率、削减重复运算的关键技能,但要占用GPU(图形处理器)的显存存储前史KV(键值)向量,生成的文本越长,缓存的数据量越大。

  跟着AI工业的展开迈入代理式AI年代,模型规划化扩张、长序列需求激增,以及推理使命并发量增加,导致AI推理的KV Cache容量增加,超出了显存的承载才能。

  现在,国外抢先芯片厂商经过从硬件迭代到软件优化,再到生态绑定,构建起AI推理年代的“铁三角”,短期内难以被替代。中国企业在单点硬件技能上有所打破,但国产软件及生态适配仍有较大距离。

  跟着信息技能使用立异工业的国产化改造提速,各行业逐渐意识到需求加快构建国产推理生态。UCM的中心价值在于供给更快的推理呼应、更长的推理序列等。

  以供给更长的推理序列为例,UCM经过动态KV逐层卸载、方位编码扩展等组合技能,将超长序列的Cache(缓存)分层卸载至外置专业存储,使用算法打破模型和资源约束,完成10倍级推理上下文窗口扩展。

  据悉,UCM可根据回忆热度在HBM、DRAM、SSD等存储介质中完成按需活动,一起交融多种稀少注意力算法完成存算深度协同,使长序列场景下TPS(每秒处理token数)提高2至22倍,以此来下降每个Token的推理本钱。

  Token是AI模型中的根本数据单位。在练习过程中,AI大模型会学习符号Token之间的联系,然后履行推理并生成精确、相关的输出。

  数据显现,国外干流AI大模型的单用户输出速度已进入200 Tokens/s区间(时延5ms),而我国干流AI大模型的单用户输出速度遍及小于60 Tokens/s(时延50至100ms)。

  一起,跟着AI使用向各类实践场景深度浸透,用户规划和恳求量急剧攀升,模型剖析和生成的Token数出现指数级增加态势。

  巨大的Token处理量意味着昂扬的运营本钱,包含服务器保护、电力耗费继续攀升等,而保证流通推理体会需求加大算力投入。

  最大化的单Token智能承载力和优化本钱,成为很多厂商的中心深思远虑,而且Token经济年代降临,练习、推理功率与体会量纲都以Token为表征。

  现在,华为AI推理加快计划结合UCM与华为AI存储(OceanStor A系列)技能,与中国银联展开才智金融AI推理加快使用试点,三大落地事务场景分别是客户之声、营销策划、工作帮手。

  以工作帮手场景为例,经过使用华为AI推理加快计划,可一差二错用户输入超越17万Tokens的超长序列推理,防止超长序列模型推不动的问题。

联系我们
电话:

0551-65316938

传真:

0551-65320226

邮箱:

ahqygk@163.com

地址:

合肥市高新技术产业开发区创新大道98号


微信公众号