全部标签

模型评估

多智能体在「燃烧」Token！Anthropic 公开发现的一切｜机器之心

文章深入探讨了 Anthropic 基于 Claude 模型构建多智能体研究系统的方法和经验。核心采用“协调者-执行者”架构，主导智能体分配任务给并行运行的子智能体，以应对复杂、开放式研究问题。研究表明，token 消耗是智能体性能的关键驱动因素，多智能体系统通过并行消耗 token 显著提升了处理能力，但成本也随之增加。文章详细分享了有效的提示词工程原则（如分工、分级投入、工具设计）和评估方法（…
AI 前线
- 0
- 0
勇敢牛牛25年12月31日
OpenAI 罕见发论文：我们找到了 AI 幻觉的罪魁祸首｜机器之心

文章深入分析了大型语言模型（LLM）产生幻觉的根本原因，引用 OpenAI 最新论文指出，核心问题在于当前的训练和评估程序错误地激励模型进行猜测而非承认不确定性。通过多项选择题和生日预测的类比，文章阐释了以准确度为单一指标的评估如何导致模型倾向于自信地给出错误答案，从而加剧幻觉问题。文章进一步探讨了幻觉如何从下一个词预测的预训练过程中产生，尤其是在处理低频、任意事实时，模型难以通过数据模式准确学习…
AI 前线
- 2
- 0
勇敢牛牛25年12月24日
Evals 实践：从前沿研究到生产应用

本文基于 OpenAI 的演示文稿，强调了人工智能模型评估的关键重要性。它介绍了 OpenAI 的内部 “GDP 评估” 框架，该框架旨在评估前沿模型在具有经济价值的真实世界任务中的性能，从而超越了传统的学术基准。GDP 评估采用专家配对评分，将模型输出与各行各业和职业的人类表现进行比较，从而证明了 GPT-5 等模型取得了显著进步。它还有助于前瞻性地追踪人工智能对劳动力市场的影响，并作为内部研究…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
The Second Half：一位 OpenAI 科学家的 AI 下半场启示录

本文是 OpenAI 科学家姚顺雨对 AI 发展下半场的解读，核心观点是 AI 的发展正从解决问题转向定义问题，Evaluation (模型评估) 会比 Training (模型训练) 更重要。文章回顾了 AI 上半场以算法和模型创新为主的特点，例如 Transformer、AlexNet、GPT-3 等，指出强化学习 (RL) 在实现通用人工智能 (AGI) 中的关键作用，并强调了先验知识 (p…
AI 前线
- 7
- 0
勇敢牛牛25年12月23日

❯

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_✈_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部

{{userData.name}}已认证

模型评估

多智能体在「燃烧」Token！Anthropic 公开发现的一切 ｜ 机器之心

OpenAI 罕见发论文：我们找到了 AI 幻觉的罪魁祸首 ｜ 机器之心

Evals 实践：从前沿研究到生产应用

The Second Half：一位 OpenAI 科学家的 AI 下半场启示录

多智能体在「燃烧」Token！Anthropic 公开发现的一切｜机器之心

OpenAI 罕见发论文：我们找到了 AI 幻觉的罪魁祸首｜机器之心