直播预告 | RTPurbo：小时级训练实现 Qwen3-480B 模型 5X Attention 压缩

AI 前线
1月13日
编辑

勇敢牛牛

本文是一篇直播预告，核心内容是介绍阿里巴巴智能引擎 RTP-LLM 团队提出的 RTPurbo 技术。RTPurbo 是一种革命性的后训练压缩方案，专注于解决大模型长序列处理的高成本瓶颈。该方案通过洞察模型注意力的本质，创造性地仅对 15%的关键“长程头”保留全局注意力，而其余头部专注于局部信息，从而实现了高达 5 倍的 Attention 计算压缩。更值得关注的是，RTPurbo 利用创新的“自蒸馏”训练范式，仅需小时级轻量微调和约 1 万条数据，就能使压缩后的模型在长文本任务上的表现与原模型持平，并完整保留其在短文本上的通用对话、推理与代码能力。这为大规模语言模型的高性价比部署提供了新的技术路径。本次预告邀请了 RTPurbo 核心作者唐瀚霖进行深度揭秘。

2026-01-12 18:16 浙江

直播预告 | RTPurbo：小时级训练实现 Qwen3-480B 模型 5X Attention 压缩

1月14日（本周三晚） 20:00-21:30，不要错过~

直播预告 | RTPurbo：小时级训练实现 Qwen3-480B 模型 5X Attention 压缩

📅 时间：

1月14日（本周三晚） 20:00-21:30

💡 亮点：

长序列处理成本高昂，始终是制约大模型应用落地的核心瓶颈。近日，阿里巴巴智能引擎RTP-LLM团队提出了革命性的后训练压缩方案——RTPurbo。该方案洞察了模型注意力的本质，创造性地仅对约15%的关键“长程头”保留全局注意力，而让其余头部专注局部信息，实现了高达5倍的Attention计算压缩。

更重要的是，RTPurbo通过创新的“自蒸馏”训练范式，仅需小时级的轻量微调与约1万条数据，即可让压缩后的模型在长文本任务上的表现与原模型持平，同时完美保留其在短文本上的通用对话、推理与代码能力。这为大规模语言模型的高性价比部署提供了全新的技术路径。

本次直播，我们特邀阿里巴巴推理加速技术专家、RTPurbo工作核心作者唐瀚霖，深度揭秘该工作背后的核心设计理念与技术突破。

👇 点预约，不错过

阅读原文

跳转微信打开

{{userData.name}}已认证

直播预告 | RTPurbo：小时级训练实现 Qwen3-480B 模型 5X Attention 压缩

52 分钟破千，19 天达 6540 台：消费级具身智能首个“爆款”诞生

第二期 AIGC 月度榜单发布！有老朋友在，新朋友也来啦！

用 Macbook 微调 Qwen3！手把手教你用微调给 Qwen 起一个新名字

迎接数字生命：一文看懂忽然爆火的 Clawdbot 本地主动智能体

AI 编码不是梦：手把手教你指挥 Agent 开发需求

少数派 × Sonos × 暖风家联合打造：声音与视觉的沉浸式体验空间正式上线

200 多行代码，超低成本复现 DeepSeek R1「Aha Moment」！复旦大学开源

“氛围编码”2 年攒下的烂摊子，正在逼我重新手写代码！