贷款40万开蛋糕店7个月遇洪水倒闭 现在负债累累!
近日,广东肇庆遭遇暴雨袭击引发洪涝灾害。蛋糕店店主杨女士表示,当时积水有两米高,完全淹没了店内的货架。洪水退去后,店内一片狼藉,柜子等物品被水浸泡损坏。杨女士无...
2025-06-20
摩尔线程科研团队近日发布了一项新的研究成果《Round Attention:以轮次块稀疏性开辟多轮对话优化新范式》,使得端到端延迟低于现在主流的Flash Attention推理引擎,kv-cache显存占用节省最多82%。
近年来,AI大型语言模型的进步,推动了语言模型服务在日常问题解决任务中的广泛应用。
然而,长时间的交互暴露出两大显著问题:
首先,上下文长度的快速扩张因自注意力机制的平方级复杂度而导致巨大的计算开销;
其次,尽管键值(KV)缓存技术能缓解冗余计算,但显著增加的GPU内存需求,导致推理批处理规模受限,同时GPU利用率低下。
为此,摩尔线程提出了Round Attention,以解决这些问题。
首先,摩尔线程提出以轮次为分析单元研究Attention规律:
Round Attention专为多轮对话场景推理需求设计,以轮次为自然边界划分KV缓存。研究发现,轮次粒度的Attention分布存在两个重要规律。
其次,摩尔线程提出了Round Attention推理流水线;
基于发现的两个规律,将稀疏性从Token级提升至块级,选取最相关的块参与attention计算,减少attention计算耗时,并将不相关的块卸载到CPU内存,以节省显存占用。
这在保持推理精度的情况下,减少了推理耗时,降低了显存占用。
摩尔线程认为,轮次块稀疏性有三大优势:自然边界的语义完整性、分水岭层的注意力稳定性、端到端的存储与传输优化。
测试显示,Round Attention的端到端延迟低于现在主流的Flash Attention推理引擎, kv-cache显存占用则节省55-82%,并且在主观评测和客观评测两个数据集上,模型推理准确率基本未受影响。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件至 3941001135@qq.com举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
相关文章
近日,广东肇庆遭遇暴雨袭击引发洪涝灾害。蛋糕店店主杨女士表示,当时积水有两米高,完全淹没了店内的货架。洪水退去后,店内一片狼藉,柜子等物品被水浸泡损坏。杨女士无...
2025-06-20
6月20日凤凰传奇工作室发文称,非常抱歉地通知大家,原定于6月27日至29日在天津举办的凤凰传奇「吉祥如意]2025巡回演唱会,因成员曾毅身体原因,不得不遗憾取...
2025-06-20
据报道,国家市场监管总局全国认证认可信息公共服务平台显示,罗马仕科技相关公司的快充移动电源3C认证大批量显示为暂停,剩余的3C认证多与充电器、插座相关。...
2025-06-20
荔枝作为当季的时令水果,吸引了不少市民购买品尝,医生提醒,吃荔枝也得有节制、有讲究,否则有可能患上“荔枝病”,给身体带来不适。据报道,荔枝虽含有大量糖分,但以果...
2025-06-20
继上个月宣布停用WindowsMetadata和InternetServices(WMIS)以及预生产驱动签名流程后,微软又宣布将从WindowsUpda...
2025-06-20
全新小鹏P7的电池及续航信息已曝光。新车将搭载容量为74.9千瓦时和92.2千瓦时的电池组,CLTC工况下的纯电续航里程分别为625公里、702公里、680公里...
2025-06-20
热评文章
宾利推出超豪华儿童三轮车 :售价5380元!
日本核污水将排放30年 全球百余家公司已研发“人造海
男孩脚踩兰博基尼炫耀致车损17万 车主再发声:会追责
多地机票跳水!上海飞成都机票降价80%!
2023国庆档票房破26亿:张艺谋电影《坚如磐石》上
曾与林正英、李小龙搭档 著名武打演员孟海去世:终年6