装了一大堆 Skill,你的 AI Coding Agent 编程能力就会自动提升?

文章探讨了 AI 编程助手(Agent)在技能扩展方面的认知误区。作者引用了 Vercel 针对 Next.js 新 API 处理的严谨实验对比,发现单纯安装 Skills 却不进行显式强调时,AI 的测试通过率甚至会低于基线水平。实验证明,在项目根目录设置 `AGENTS.md` 文件,将关键知识和规则直接写入其中,能让 AI 的 Build、Lint 和 Test 通过率达到 100%。作者分析认为,AI 的思考方式具有类人性,存在决策成本和工具遗忘风险,因此“无决策点、始终可用”的上下文约束在实践中远优于灵活但依赖主动调用的工具系统。


原创 刘小排 2026-01-30 00:13 北京

装了一大堆 Skill,你的 AI Coding Agent 编程能力就会自动提升?

装了一大堆Skill以后,我一直在思考一个问题: 我的AI Coding Agent编程能力,会因为Skill装得多,编程能力就自动提升了吗?

哈喽,大家好,我是刘小排。

Skills真是一个伟大的发明,相信你也和我一样,对各种新奇的Skills爱不释手。

装了一大堆Skill以后,我一直在思考一个问题: 我的AI Coding Agent编程能力,会因为Skill装得多,编程能力就自动提升了吗?

正好,最近Vercel做了一个严谨的实验,很好的解答了我的疑惑。

如果没有耐心,我先告诉你省流版答案: 答案是NO!装再多Skill,AI的编程能力都不会自动提升! 但是你可以“显示声明”要调用的Skill,更好的方法是写到AGENTS.md里进行强调,能得到明显提升

我想,这可能是因为AI的思考方式比较像人。有时候,你让人去完成一个什么任务,他也往往会忘记自己已经拥有的某个工具,除非你特别强调。

以下是实验数据。看到第二行没有?

装了 Skill,默认情况下,跟没装一样。 甚至 Test 通过率还降了 5 个点。

就算你在提示词里显式告诉它"先探索项目,再调用 Skill",也只能到 79% 的综合通过率。

而一个 markdown 文件,直接拉满到 100%。

配置

Build

Lint

Test

基线

不装Skill

84%

95%

63%

Skill

装Skill、不强调

84%

89%

58%

Skill 

+ 显式指令

95%

100%

84%

AGENT.md 

写到规则里 

100%

100%

100%

我一个来自明星AI创业公司的朋友,他在看完文章后直言:「什么“渐进性暴露”,都是白扯!」

Vercel的实验?

Vercel的实验特别聪明。

想解决一个很现实的问题:AI 编程助手的训练数据是有截止日期的,新出的框架 API 它根本不知道。比如 Next.js 16 刚出的 'use cache'connection()forbidden() 这些新 API,你让 Claude 或者 GPT 去写,十有八九写错。

怎么办?两条路:

  1. Skills —— 一套打包领域知识的开放标准,包含文档、提示词、工具,Agent 需要的时候自己去调用

  2. AGENTS.md —— 在项目根目录放一个 markdown 文件,把关键知识写进去

听起来 Skills 更高级对吧?毕竟是一套完整的系统,按需加载,模块化设计,很工程化。

结果呢?

开头你也看到了。

装了一大堆 Skill,你的 AI Coding Agent 编程能力就会自动提升?

感兴趣的同学可以阅读原文

https://vercel.com/blog/agents-md-outperforms-skills-in-our-agent-evals

为什么 Skill 拉胯了?

Vercel 团队的分析很到位,但我想换一个更直白的说法:AI 大模型的思考方式,其实很像人。

你想想,你是不是也经常这样:

  • 买了一堆效率工具,Notion、Obsidian、Flomo、滴答清单……最后还是用微信收藏

  • 订阅了一堆 newsletter,从来没打开过

  • 收藏了一百个「稍后阅读」,从来没有「稍后」

  • 学了一堆快捷键,干活的时候还是用鼠标点

你手上明明有工具,但你就是想不起来用。

除非有人在你耳边反复念叨:"用那个工具!用那个工具!"

AI 也一样。

Skills 的设计理念很美好:当Agent发现问题,可以自己去找发现工具来解决问题。

但这个链条有太多环节可以出错:

  1. 它可能根本没意识到自己需要帮助("这个 API 我会啊"——然后写错)

  2. 它知道有 Skill,但忘了调用(人类程序员看了都觉得亲切)

  3. 调用的时机不对(先写了一半代码,再去查文档,改起来更麻烦)

  4. 调用的措辞稍微变一下,结果就完全不同(Vercel 原话:"wording was fragile")

这就是为什么 Skill 在"默认行为"下跟没装一样。

你以为它会主动用,但它就是不用。

AGENTS.md 为什么能 100%?

答案简单到让人怀疑人生:因为它不需要 Agent 做任何决策

AGENTS.md 就放在项目根目录,Agent 每一轮对话都能看到。不需要它判断"要不要调用",不需要它选择"什么时候调用",不需要它纠结"调用哪个"。

它就在那儿,避无可避。

Vercel 总结了三点:

  1. No decision point —— 没有决策点

  2. Consistent availability —— 始终可用

  3. No ordering issues —— 没有顺序问题

翻译成人话:不给它选择不看的机会。

这让我想起一个管理学的老梗:

不要考验人性。

同理,不要考验 AI 的主动性

与其相信它会主动做正确的事,不如直接把正确的信息塞到它脸上。

我的思考

这个实验结果,其实揭示了一个更深层的问题:

我们对 AI Agent 的期待,可能从一开始就错了。

我们总想着让 AI 变得更"智能"、更"自主"、更"会判断"。所以我们给它装各种插件、各种 Skill、各种工具,期待它能像一个资深工程师一样,知道什么时候该用什么。

但现实是,它就是会忘,就是会漏,就是会判断错误。就和人一样。这不是AI的Bug,这是AI的本性

你给它越多选择,它越容易选错。

反而是最笨的方法——直接把信息塞进上下文,不给它任何选择的余地——效果最好。

少即是多,约束即自由。

阅读原文

跳转微信打开

AI 前线

规模化企业级 AI:来自 IBM 的治理与运营模式经验

2026-1-31 18:24:24

AI 前线

使用多智能体工作流扩展内容审核运营 | Amazon Web Services

2026-1-31 18:24:29

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索