-
ICCV 2025 | 清华&腾讯混元 X 发现「视觉头」机制:仅 5%注意力头负责多模态视觉理解 | 机器之心
本文由清华大学与腾讯混元 X 组共同提出,深入探讨了多模态大模型在视觉理解中的内部机制。研究发现,在多模态训练后,仅有不到 5%的注意力头(称为“视觉头”)专注于视觉内容理解,而绝大多数注意力头仍主要处理文本信息,揭示了“视觉头稀疏性”现象。基于此洞察,文章提出了 SparseMM 方法,通过一种创新的三段式 KV-Cache 分配策略,优先为关键视觉头分配更多缓存资源,以应对多模态模型中视觉 T…- 0
- 0
注意力稀疏
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
✈优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!

