视频界的 Skills 来了，好用到爆炸

本文详细介绍了国内 AI 视频产品 Vidu 推出的“主体社区”功能。作者将其核心逻辑类比为近期流行的“Skills”，认为这是对视频创作中 Workflow 和专业经验的封装。该功能允许用户通过“@”符号直接调用涵盖运镜、氛围、构图、风格等 8 大类、200 多个预设模块，将复杂的导演直觉转化为可标准化的调用件。文章通过多个实测案例展示了该功能在保持角色一致性、实现复杂运镜（如无人机拉远、特写）以及特效生成方面的表现，并指出这种“拍摄能力封装”的思路类似于剪映对剪辑能力的简化，有望建立新的创意资产变现模式。

最近 Skills 火得一塌糊涂，从 Claude Code 一下子扩展到了各种各样的 Agent 产品中。

其实 Skills 本质就是一种更好的 Workflow 实现方式，是对经验和流程的封装。

昨天发现国内很知名的 AI 视频产品 Vidu 悄悄做了视频界的 Skills。

简单说，他们发了一个叫主体社区的特性。其实我理解主体社区就是 Skills Hub。

我们可以把自己调好的角色、风格分享出来，这样其他用户就能直接用。相当于把个人的创作经验变成了可复用的模块。Skill 的精髓。

视频界的 Skills 来了，好用到爆炸

地址是：https://www.vidu.cn

还有个福利，现在注册，登录 Vidu.cn，输入邀请码：AICPAY，即送500积分。

Vidu API：https://platform.vidu.cn

我看到了非常惊喜。因为最近在玩 Skills，但没想到视频领域的创作其实也可以把这个思路给迁移过来。果然很多创新就是跨界的结果。

社群里有人整理了它都有哪些主要的主体，大家看看，下面这个图可以上下滑动。

可以直接收藏了，这简直就是一个做视频时可以用到的运镜、氛围、沟通、风格清单，直接在社区主体库里直接选择想要的就可以了。

视频界的 Skills 来了，好用到爆炸

可上下滑动查看

它的主体库里面，不只是人物，还把运镜、动作、氛围、构图、风格、场景全都做成了可以直接调用的预设。

看完之后我的感觉是，这不就是一个 AI 好莱坞吗？一个人就能拥有整个好莱坞制片厂的能力。

我举几个例子就明白了。

想让镜头跟随人物，慢慢往前推进，@ 一下“镜头跟随”就行。想要那种乌云搭配闪电、雷声的特效，@ 一下“雷暴”，画面的天空就会有乌云压顶、电闪雷鸣的效果。

或者想来个特写镜头展示主体，@ 一下“特写”，镜头就会聚焦到主体。

就跟我下面这个视频中写的提示词一样，写到一个场景直接添加图片，也可以把场景图片上传到主体库，直接打“@”符号就会弹出来添加和收藏的主体，直接选就好。

生成出来的效果：

我数了一下，这次更新新增了二百多个这样的主体预设，覆盖了 8 个大类：

镜头运动有推、拉、摇、移、跟、甩。氛围有紧张、悬疑、浪漫、科技感、敬畏感。风格有西部片、黑白默片、科幻、今敏动画。

甚至还有表演类的，什么夸张大眼哭泣、癫狂大笑、吐槽脸，炫酷的招式特效也都准备好了。

说白了，它把导演拍电影时脑子里那些内化的判断，经验，技能，拆成了一个个可以被 AI 精准调用的标准件。

其实就是 Skills。只是官方没这么叫。本质和 Skills 一模一样，都是对某类经验的封装。

继续来玩一玩，整一个疯狂麦克斯风格的，我用了一个经过重度改装的末日战车的图片，再搭配智能运镜和荷兰角构图。

视频界的 Skills 来了，好用到爆炸

结果出来的时候，我自己都愣了一下，这个运镜简直没谁了。

还有下面这个更偏电影叙事的场景：

视频界的 Skills 来了，好用到爆炸

效果如下：

为了方便保持远、近景人物的一致性，我们可以同一张图片用两次。

视频界的 Skills 来了，好用到爆炸

操作步骤：

生成出来的效果还是蛮不错的：

我们可以更直接点，只用图片和运镜，比如选择无人机拉远：

视频界的 Skills 来了，好用到爆炸

效果如下：

选择鸟瞰运镜：

视频界的 Skills 来了，好用到爆炸

效果如下：

选择特写：

视频界的 Skills 来了，好用到爆炸

效果如下：

玩完简单的，我们继续加大难度。添加一个自己的主体。开始之前，我先给纯小白分享下怎么添加主体，操作很简单。

点击主体库再点击“+”，然后上传主体图片。可以看到，我能给主体命名、添加标签，如果我们上传的人物，还可以给人物选音色。

音色可以在配音功能中选“音效 + 人声”，出来的就是你刚刚选的那个音色。点击下一步后，它会出来一个风格和描述供我们确认。

视频界的 Skills 来了，好用到爆炸

添加完主体后，我们开始整点花活，上特效：

效果如下，还是很有压迫感的。

玩嗨了，再恶搞一下，来个正派变装反派：

可以看到两个人物主体形象的切换是非常丝滑的，没有突兀感。

至于打斗的画面，目前还是需要很多次抽卡的，这个得说实话。

在我抽卡的过程中，我跑出来一个特别鬼畜的结果，当时就笑出了声，我放出来给大家看看：

视频界的 Skills 来了，好用到爆炸

最后的效果：

真的，这东西用起来太爽了。

我们团队有个同事玩了半天，跟我说了一句话：这能省掉我们至少 30% 的精力。

以前我们做一个视频，光是调运镜就得折腾好久。

脑子里想要那种镜头慢慢推进的感觉，但提示词写不明白，生成出来的效果总是差点意思。只能一遍遍试，十几个版本里挑一个勉强能用的。

现在不用了。想要推进，@ 一下。想要环绕，@ 一下。不满意，换一个再试。整个过程从「描述—Loss—重来」变成了「选择—预览—确认」。

这让我想起剪映当年做的事情。

剪映把转场、特效、滤镜这些能力，全部抽象成了一个个小模块。

用户不需要懂视频剪辑的原理，点一下就能用，不合适就换一个。它把剪辑的门槛拉到了地板上，所以才能火成那样。

Vidu 现在干的事情，逻辑是一样的，只不过它封装的不是剪辑能力，而是拍摄能力。

为什么我觉得这个思路特别值得说？

因为它解决的是 AI 视频创作里一个真正的痛点。

我们团队折腾 AI 视频快一年了，这一年最大的感受是，AI 视频的操作流程其实不复杂，无非就是写提示词、生成图片、转成视频。

工具层面的东西花几天就能上手。但真正卡住大多数人的，是电影行当的那些专业知识。

你得知道什么构图好看，什么运镜能制造情绪，什么色调适合什么场景。

这些东西不是学几天提示词能补上来的，它需要时间、需要积累、需要看大量电影，然后慢慢内化成直觉。

我们团队为了补这块，买了一堆电影方面的书。看完后慢慢理解了一件事：

镜头是电影的最小单位，它们之间的连接就像词语和词语的连接，不同的排列组合会给观众带来完全不同的感受。

比如同样拍一个人走进房间，你用固定中景，观众觉得平淡。用手持跟拍，有临场感。先给门把手特写再切人脸，就有悬念。

画面内容一样，镜头语言不同，传递的东西就完全不同。

这就是为什么专业导演值钱。

他们脑子里装着各种镜头组合的经验，知道什么场景用什么手法。

Vidu 的主体社区做的就是这件事。它把专业知识封装起来，让我们不需要全懂也能用。这不就是 Skills 的逻辑吗？

把高手的经验封装成可复用的模块，这样普通人也能做出高手级别的效果。

而且我看到还支持主体分享，也就是我自己做了一个很好的主体效果，可以分享给其他人，甚至可以付费分享。这不就是一个主体社区吗？

视频界的 Skill 社区，可分享，可交易，可互动，建立了新的创意资产变现的商业模式。

这个产品思路挺牛的。绝对是一次 AI Video 产品层面的创新。

{{userData.name}}已认证

视频界的 Skills 来了，好用到爆炸

LingBot-VLA 具身大模型全面开源

Google DeepMind 推出针对多语言语言模型的 ATLAS 缩放法则

豆包最强 AI 修图模型来了！动嘴就能精准 P 图，扣子开源版上线，还搞定同声传译

智谱推出轻量级 AI 代码编辑器 “Z Code”，引领编程新潮流

告别数据库“膨胀”：Dify x SLS 构建高可用生产级 AI 架构

如何画好一张架构图丨终极典藏版

Git 2.48 发布：全面迁移至 Meson 构建系统，内存泄漏问题已修复

起底"豆包手机"：核心技术探索早已开源，GUI Agent 布局近两年，"全球首款真正的 AI 手机"