-
75%预训练数据都能删!Jeff Dean 新作:全自动筛除低质量数据
文章介绍了 Google DeepMind 提出的 DataRater 框架,旨在通过自动化方式评估并筛选预训练数据质量。针对大模型训练中数据质量参差不齐导致效率低下和性能受限的问题,DataRater 采用元学习和元梯度优化,学习识别数据对训练目标的价值。实验证明,DataRater 能有效减少训练计算量(在低质量数据集 Pile 上可移除高达 75%数据并节省 46.6%净计算),提升模型性能…- 0
- 0
数据筛选
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
✈优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!

