刚才,华为推理终于来了!上下文扩展的10倍,成
日期:2025-08-14 09:44 浏览:

Zhidongxi May -set | ZER0编辑器| Moying Zhidongxi在今天的8月12日报道说,华为推出了一种创新的AII-UCM推理技术,这是内存数据推理的经理,该技术通过多层缓存显着优化了AI推理经验和有效性。 UCM是一个以KV缓存和内存管理为中心的推理加速套件,提供了全景串行推理解决方案。通过与推理,计算能力和存储框架的三层合作,优化了通过各种业务链接流过的代币的效率,以实现更好的体验和更低的AI推理成本。它的三个主要组件包括推理引擎(连接器)的插件,该插件连接了不同的计算机和计算能力,功能库(加速器),该函数库(加速器)支持多级KV高速缓存管理和加速算法以及高性能的KV缓存访问访问适配器(ADAPTER)。有开放而统一的南北际交往CE,它可以适应多类推理引擎框架,计算功率和存储系统。经过广泛的试验和验证,UCM可以将第一个令牌的延迟延迟至90%,将系统吞吐量增加22次,并实现上下文窗口扩展的10个时间扩展。扩展全文
华为计划在今年9月正式开放UCM资源,当时将在魔术机器社区推出,并将逐渐为未来行业的主要推理的主要引擎做出贡献。它预计,通过开放和开放的资源,该行业将分享是结果,并共同促进了AI推理生态系统的繁荣和发展。
同时,华为和中国联合赛是第一个将UCM技术试点应用程序应用于普通财务方案的人,并发布了明智的AI推理解决方案的应用结果。
会议结束后,副总统Xie Liming Of华为存储产品线和闪存场的总裁,以及华为AI存储产品存储数据的首席建筑师Li Guojie具有诸如Zhidongxi之类的深层媒体交换。
Li Guojie强调,使用AI处理更高水平的问题将具有更多的信息和数据输出,而UCM可以显着优化成本。今天发布的UCM是华为首次为IIN提供完整的完整处理,全幕和新兴的系统解决方案。从单点计算功率模块转变为系统级优化是一个重大的变化和趋势。有许多带有类似方向的行业解决方案的开源来源,其中一些产生了一层或一些成分,但从未见过可以在商业中使用的完整端到端解决方案。
西·利林(Xie Liming)表示,UCM的开源与行业的思想一致。华为希望通过开启这些成就,为推理,生态和成本经验做出贡献进一步促进了框架,存储和GPU制造商的整个机制的共同建设和成熟,并真正解决了AI行业的效率和成本。
1。i(i)识别theai的经验:10倍扩展上下文窗口,TTFT降低了90%,代币经济增长了2倍 + Huawei副总裁兼数据存储产品线副总裁Zhou Yuefeng,他说,AI在金融行业中使用了AI的数量很大。在AI期间,模型培训,效率和理解经验的维度都由令牌数字代表,而经济令牌的时代来了。
AI优先级的应用三个主要挑战面临实施过程:
无法推动(输入超过模型上下文窗口)
缓慢推动(大型推理的标记的第一个延迟=大型中国模型的1/2)
这是推动昂贵(美国大型型号的违规吞吐量率几乎是Bigchinese型号的10倍)
为此,华为启动了UCM推理内存数据管理器(Unified Cache Manager),该记忆数据管理器(Unified Cache Manager)解决了通过多级缓存识别AI和成本问题的经验。
在整个AI识别系统中,内存的三个组成部分:高带宽内存HBM和DRAM都在智能计算服务器上。过去可以完全使用但不使用的是下面的专业共享存储。
通过一系列算法,UCM在不同内存的认知过程中将具有不同延迟的数据放置在HBM上,将实时内存数据放置在DRAM中,将短期内存数据放置在共享的专业存储中,以改善整个系统的整个系统。
UCM主要分为三个部分:领先级别是发动机插件的推理(连接器),这是灵活的连接D到不同的工业机器和各种计算能力,并且可以连接到Mindie和Sglang之类的主要引擎框架;中间是加速的一些创新算法,该算法将缓存内存数据分类,该算法在智能计算服务器上运行。另一部分是访问适配器与专业共享存储相结合的,它可以提高专业存储的吞吐量并减少延迟的效率,这可能会使三级存储保持更好地固定。
通过大量试验,UCM可以为效率,经验和提高理解系统的成本带来重大提高。
。 +。
。
。同时,它结合了各种分散的注意力算法,以实现深度记忆协调,以将TPS(每秒处理的令牌数量)提高到长时间的情况,从而降低了每标记的知情成本。
受打字方法的启发,UCM提供了一组不可预测的基于获得后缀的组织算法,该算法比传统的MTP Pre-Pre-Re-Re-Pre-Pre-Re-the-the-for-pre-pre-re-the-the-for-pre-pre-re-the-pre-pre-re-th-pre-pre-re-the-the-the-pre-pre-re-th-pre-pre-re-th-tex he-the-the-the-tex he-the-tex'构建算法更好,更适合于业务场景。
IB
KV缓存和内存数据管理是具有性能的性能并将计算成本降低到对语言模型的大量理解的主要技术。但是,一个完整的加速软件系统包括IT,因为核心尚未在国内AI推理生态系统中形成,并且相关技术的布局存在缺点。
随着AI代理时期进入AI代理,规模量表的规模,长期需求的流动和知情活动的顺序增加了增加HBM容量,因此有必要开发“软件优化 +硬件创新 +硬件创新 +存储和计算协作的体系结构”。
UCM可以根据Data,Inc,以层次结构方式存储在各种媒体中将KV缓存能力从GB到PB放置。这是更经济的,更易于使用Speedingndi的解决方案。
它的设计概念是支持与北部的发明机和南部的纱丽变化存储系统的各种连接。在调整配置算法的速度方面,它打开并呼吁更开放的资源和生态伙伴聚集在一起开发丰富的加速库算法。
UCM专为开放资源而设计,高级插件引擎界面被积极集成到主要的主流资源社区中。层次缓存管理接口的中央层面是使用月饼一起设计的,并共同定义了许多芯片制造商在端到端XPU存储标准和工业接口的意义上。
华为希望联合起来的行业力量联合起来建立并创建一个新的范式,以加速以内存数据管理为中心的推理。AI技术的差异很快,因此UCM专注于未来的设计,并从KV缓存分层管理转移到AI本机内存管理代理和应用程序加速度。除了今年发布的推理加速度套件(下图的黄色部分)外,它将继续构建和发布多模式采集功能,以捕获代理理解能力并管理未来并加速代理商的内存功能。
据李·古吉(Li Gujie)称,UCM从去年6月至7月开始孵化,此后将近一年。只有一个100人的团队投资于算法。将来,它将对AI代理商进行进一步的发展,并可能继续增加投资。
关于UCM和其他层次缓存管理之间差异的解释,Li Gujie总结了三点:
首先是将其包括在专业存储中。许多分层缓存管理要管理一些裸露金属来源,效率对于满足商业客户的要求不是很有效。与专业存储合并后,华为开发了许多软件,硬件系统和装置,例如直接加速,缓存生命周期管理等。
其次,就算法加速库而言,现有的行业解决方案几乎是唯一的传统前缀缓存技术,并且不使用完整处理的算法算法,后缀检索算法和其他算法(例如UCM)。与该行业相比,华为贡献了一些更丰富,更高的加速算法,并且该图书馆算法仍在上升。
第三,理解的情况很丰富,输入和输入的请求有许多变化。在每种情况下,都没有框架,加速机制或算法可以是通用的,因此在DIF中需要一个完整,柔滑和自动的过渡和自动适应解决方案出色的情况,各种长期和短期以及不同的要求。只有真正创建和重复客户情况的UCM等技术才能具有这些功能。
3。技术价值是在智能财务场景中验证
在与中国UnionPay的联合现代技术飞行员中,已经证明了UCM的技术价值。
在中国Unionpay的“客户之声”业务情况下,借助UCM技术和工程方法,大型模型速度模型的增长增加了125次,仅需10秒即可准确识别高频客户问题并促进服务质量的提高。
将来,中国联合赛计划依靠国家人工智能试点应用程序,并与华为和其他生态伙伴合作,共同努力开发“ AI+财务”演示应用的应用,以促进“实验室验证”到“规模应用”的技术成就。
在聚会上Ng,Cao Feng,中国信息与通信技术学院平台和工程系主任,分享了推理的大规模优化的四个主要趋势:
(1)实施大型模型的重点从实践转变为雇用,并且应用程序从TOB到TOB加速了成熟度;
)
(3)优化系统级体系结构将是主流。领先的制造商将在2025年逐渐启动系统级优化解决方案。将来,推理体系结构的设计与“模型 - 赛纳里奥建筑结构”相结合将是技术和行业开发的重点;
(4)KV缓存是建筑声誉的重点。 KV缓存的理解解决方案是核心的彼此出现。存储依赖于其的高性能和高级调度技术的重要性尤其明显。
结论:应付许多AI推理性能挑战,UCM可以有效地减轻资源瓶颈
推理成为下一阶段AI开发的重点,该阶段与用户满意度,业务可行性等直接相关,其重要性变得更加突出。
AI推理逐渐从生成AI时的简单推理活动逐渐发展为AI代理期间复杂的长期推理活动,这将绩效挑战带来计算强度,卓越的内存访问,超级代理上下文处理以及多代理代理 - 代理代理。
UCM可以通过重新使用计算结果,扩展上下文窗口,长期存储器维护和共享技术,有效地减轻资源瓶颈和由复杂活动引起的绩效挑战,从而减少双重计算和不良访问的内存。
通过合并缓存缓存算法工具,UC可以解锁KV缓存的潜在性能和倾斜框架的更大范围,通过开放的资源开放来优化商业理解解决方案,进一步加速了概念的效率,并进一步加速了探索和出色的途径。回到Sohu看看更多