-
Kimi 大模型训推混部的稳定性与资源优化实战
文章深入剖析了月之暗面在 Kimi 大模型训推混部集群中的工程实践。面对大规模资源下的高故障率、低资源利用率和潮汐效应等挑战,月之暗面构建了全链路监控系统(如 Varys 情报总管),实现了连续异步 Checkpoint 机制以提升稳定性。为提高资源效率,文章介绍了动态云开发资源申请、任意级目录用量统计、异步模型评估和跨机房模型分发等方案,并详细阐述了训推多级潮汐系统。此外,文章还针对强化学习中训…- 0
- 0
资源优化
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
✈优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!

