本文是一篇直播预告,核心内容是介绍阿里巴巴智能引擎 RTP-LLM 团队提出的 RTPurbo 技术。RTPurbo 是一种革命性的后训练压缩方案,专注于解决大模型长序列处理的高成本瓶颈。该方案通过洞察模型注意力的本质,创造性地仅对 15%的关键“长程头”保留全局注意力,而其余头部专注于局部信息,从而实现了高达 5 倍的 Attention 计算压缩。更值得关注的是,RTPurbo 利用创新的“自蒸馏”训练范式,仅需小时级轻量微调和约 1 万条数据,就能使压缩后的模型在长文本任务上的表现与原模型持平,并完整保留其在短文本上的通用对话、推理与代码能力。这为大规模语言模型的高性价比部署提供了新的技术路径。本次预告邀请了 RTPurbo 核心作者唐瀚霖进行深度揭秘。
2026-01-12 18:16 浙江

1月14日(本周三晚) 20:00-21:30,不要错过~

📅 时间:
💡 亮点:
更重要的是,RTPurbo通过创新的“自蒸馏”训练范式,仅需小时级的轻量微调与约1万条数据,即可让压缩后的模型在长文本任务上的表现与原模型持平,同时完美保留其在短文本上的通用对话、推理与代码能力。这为大规模语言模型的高性价比部署提供了全新的技术路径。
本次直播,我们特邀阿里巴巴推理加速技术专家、RTPurbo工作核心作者 唐瀚霖,深度揭秘该工作背后的核心设计理念与技术突破。
👇 点预约,不错过

