装了一大堆 Skill，你的 AI Coding Agent 编程能力就会自动提升？

文章探讨了 AI 编程助手（Agent）在技能扩展方面的认知误区。作者引用了 Vercel 针对 Next.js 新 API 处理的严谨实验对比，发现单纯安装 Skills 却不进行显式强调时，AI 的测试通过率甚至会低于基线水平。实验证明，在项目根目录设置 `AGENTS.md` 文件，将关键知识和规则直接写入其中，能让 AI 的 Build、Lint 和 Test 通过率达到 100%。作者分析认为，AI 的思考方式具有类人性，存在决策成本和工具遗忘风险，因此“无决策点、始终可用”的上下文约束在实践中远优于灵活但依赖主动调用的工具系统。

原创刘小排 2026-01-30 00:13 北京

装了一大堆Skill以后，我一直在思考一个问题：我的AI Coding Agent编程能力，会因为Skill装得多，编程能力就自动提升了吗？

哈喽，大家好，我是刘小排。

Skills真是一个伟大的发明，相信你也和我一样，对各种新奇的Skills爱不释手。

装了一大堆Skill以后，我一直在思考一个问题： 我的AI Coding Agent编程能力，会因为Skill装得多，编程能力就自动提升了吗？

正好，最近Vercel做了一个严谨的实验，很好的解答了我的疑惑。

如果没有耐心，我先告诉你省流版答案： 答案是NO！装再多Skill，AI的编程能力都不会自动提升！但是你可以“显示声明”要调用的Skill，更好的方法是写到AGENTS.md里进行强调，能得到明显提升。

我想，这可能是因为AI的思考方式比较像人。有时候，你让人去完成一个什么任务，他也往往会忘记自己已经拥有的某个工具，除非你特别强调。

以下是实验数据。看到第二行没有？

装了 Skill，默认情况下，跟没装一样。甚至 Test 通过率还降了 5 个点。

就算你在提示词里显式告诉它"先探索项目，再调用 Skill"，也只能到 79% 的综合通过率。

而一个 markdown 文件，直接拉满到 100%。

配置	Build	Lint	Test
基线不装Skill	84%	95%	63%
Skill 装Skill、不强调	84%	89%	58%
Skill + 显式指令	95%	100%	84%
AGENT.md 写到规则里	100%	100%	100%

我一个来自明星AI创业公司的朋友，他在看完文章后直言：「什么“渐进性暴露”，都是白扯！」

Vercel的实验？

Vercel的实验特别聪明。

想解决一个很现实的问题：AI 编程助手的训练数据是有截止日期的，新出的框架 API 它根本不知道。比如 Next.js 16 刚出的 'use cache'、connection()、forbidden() 这些新 API，你让 Claude 或者 GPT 去写，十有八九写错。

怎么办？两条路：

Skills —— 一套打包领域知识的开放标准，包含文档、提示词、工具，Agent 需要的时候自己去调用
AGENTS.md —— 在项目根目录放一个 markdown 文件，把关键知识写进去

听起来 Skills 更高级对吧？毕竟是一套完整的系统，按需加载，模块化设计，很工程化。

结果呢？

开头你也看到了。

装了一大堆 Skill，你的 AI Coding Agent 编程能力就会自动提升？

感兴趣的同学可以阅读原文

https://vercel.com/blog/agents-md-outperforms-skills-in-our-agent-evals

为什么 Skill 拉胯了？

Vercel 团队的分析很到位，但我想换一个更直白的说法：AI 大模型的思考方式，其实很像人。

你想想，你是不是也经常这样：

买了一堆效率工具，Notion、Obsidian、Flomo、滴答清单……最后还是用微信收藏
订阅了一堆 newsletter，从来没打开过
收藏了一百个「稍后阅读」，从来没有「稍后」
学了一堆快捷键，干活的时候还是用鼠标点

你手上明明有工具，但你就是想不起来用。

除非有人在你耳边反复念叨："用那个工具！用那个工具！"

AI 也一样。

Skills 的设计理念很美好：当Agent发现问题，可以自己去找发现工具来解决问题。

但这个链条有太多环节可以出错：

它可能根本没意识到自己需要帮助（"这个 API 我会啊"——然后写错）
它知道有 Skill，但忘了调用（人类程序员看了都觉得亲切）
调用的时机不对（先写了一半代码，再去查文档，改起来更麻烦）
调用的措辞稍微变一下，结果就完全不同（Vercel 原话："wording was fragile"）

这就是为什么 Skill 在"默认行为"下跟没装一样。

你以为它会主动用，但它就是不用。

AGENTS.md 为什么能 100%？

答案简单到让人怀疑人生：因为它不需要 Agent 做任何决策。

AGENTS.md 就放在项目根目录，Agent 每一轮对话都能看到。不需要它判断"要不要调用"，不需要它选择"什么时候调用"，不需要它纠结"调用哪个"。

它就在那儿，避无可避。

Vercel 总结了三点：

No decision point —— 没有决策点
Consistent availability —— 始终可用
No ordering issues —— 没有顺序问题

翻译成人话：不给它选择不看的机会。

这让我想起一个管理学的老梗：

不要考验人性。

同理，不要考验 AI 的主动性。

与其相信它会主动做正确的事，不如直接把正确的信息塞到它脸上。

我的思考

这个实验结果，其实揭示了一个更深层的问题：

我们对 AI Agent 的期待，可能从一开始就错了。

我们总想着让 AI 变得更"智能"、更"自主"、更"会判断"。所以我们给它装各种插件、各种 Skill、各种工具，期待它能像一个资深工程师一样，知道什么时候该用什么。

但现实是，它就是会忘，就是会漏，就是会判断错误。就和人一样。这不是AI的Bug，这是AI的本性。

你给它越多选择，它越容易选错。

反而是最笨的方法——直接把信息塞进上下文，不给它任何选择的余地——效果最好。

少即是多，约束即自由。

阅读原文

跳转微信打开

{{userData.name}}已认证

装了一大堆 Skill，你的 AI Coding Agent 编程能力就会自动提升？

Vercel的实验？

为什么 Skill 拉胯了？

AGENTS.md 为什么能 100%？

我的思考

规模化企业级 AI：来自 IBM 的治理与运营模式经验

使用多智能体工作流扩展内容审核运营 | Amazon Web Services

当 AI 面对“说不清”的需求：如何实现更优解？

视频生成推理加速实践：基于 torch.compile 的整图编译优化

迎战软件 3.0 时代：新范式、新挑战、新工程

多次全球性中断后，Cloudflare 推出了“Code Orange: Fail Small”韧性计划

自动驾驶系统的局部最优陷阱

Veo 3.1：Flow 带来高级功能，革新 AI 视频创作