-
只靠国产算力与开源数据,端侧模型预训练行不行?我们做到了全流程开源
文章详细介绍了“开元-2B”端侧模型的预训练过程,该模型由鹏城实验室与清华大学 PACMAN 实验室联合开发。核心挑战是在国产算力(华为昇腾 910A)受限和数据质量参差不齐的情况下,训练高效可用的端侧模型。文章阐述了为解决训练稳定性引入的“三明治范数”和“软裁剪”技术,以及为高效利用开源数据而开发的 Kaiyuan-Spark 数据处理框架和“分位标定”方法。此外,还介绍了多阶段动态比例调整、策…- 0
- 0
端侧模型
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
✈优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!


