这个真人版《火影忍者》竟然是 AI 做的，来自中国 AI 视频新王者 Vidu Q3

本文详细评测了生数科技最新发布的 AI 视频生成模型 Vidu Q3。该模型的核心亮点在于支持长达 16 秒的音视频同步直出，解决了以往 AI 视频需后期配音的痛点。文章通过真人版《火影忍者》、直播连麦、短剧表演及 3D 动画等多个实测案例，展示了 Vidu Q3 在情感表达、复杂运镜、多语言支持以及精准文字渲染方面的卓越能力。在 Artificial Analysis 的国际基准测试中，Vidu Q3 排名全球第二、中国第一，超越了多款国际主流模型。作者指出，这一进化标志着 AI 视频生成已从单一视觉生成升维至音视频原生的多模态融合，极大地提升了 AI 的叙事能力。

金磊发自凹非寺

量子位 | 公众号 QbitAI

开年第一个月，国产AI真的是卷没边儿了。

这不，AI视频生成圈又新鲜出炉了个大的——

全球首个支持一口气生成16秒音视频直出的AI！

然后啊，我反手就做一个真人版《火影忍者》第四次忍界大战的名场面，请欣赏：

这个真人版《火影忍者》竟然是 AI 做的，来自中国 AI 视频新王者 Vidu Q3

视频地址：https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA

如何？是不是从画面到台词再到音效，都有原版日漫的那个味道了？

而制作这部真人剧背后的模型，正是生数科技新鲜出炉的Vidu Q3。

在体验一番下来，最大的感受就是全自动：

视频和音频是一次性一锅出的
运镜和转场是自由切换一步到位的
文字和图片都能生成音视频的
清晰度是支持1080P的（生成后可提升至4K）
叙事能力是完整的、文字渲染是精准的

在语言上，这次Vidu Q3还同时支持中文、英文和日文等多种。

有点意思，着实有点意思。

而且Vidu Q3这次的实力也是得到了国际权威AI基准测试机构Artificial Analysis的认证。

在最新的榜单中，Vidu Q3 排名中国第一，全球第二；与之同台竞技的选手包括马斯克xAI Grok，超越Runway Gen-4.5、Google Veo3.1和OpenAI Sora 2。

如此好玩的新AI，老规矩，一波深度实测，走起~

首先在操作上，我们在图生视频页面中，需要先选择“Vidu Q3”这个模型，可以一口气出1-4个视频。

在上传首帧图片、输入对应提示词后，我们还可以选择生成视频的秒数，从1秒到16秒都可以。

接下来，我们用图生音视频的方式，一次性生成一段主播连麦对话的视频，首帧和Prompt如下：

请欣赏效果：

视频地址：https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA

有一说一，冷不丁一看，还真像是从真实连麦视频录像中截出来的一段恶搞片段。

不仅一次性16秒的音视频可以直出，而且台词和演绎的效果吻合Prompt的要求。

更让人意外的是，Vidu Q3似乎是识别到了直播场景，在Prompt没有提示的情况下，自动让弹幕动了起来。

用类似的方式，我们再来玩个有意思的。

假设有个短剧的场景是这样：一位年轻女性正在综艺节目当导师，点评参赛选手的演技，需要犀利且愤怒的锐评。

视频地址：https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA

嗯，这个演技，台词的愤怒和表情是恰到好处地对上了；不说是AI，都可以拿去以假乱真了。

看完现代愤怒的短剧，接下来，我们再来尝试一下苦情的古装电视剧。

视频地址：https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA

AI的演技依旧是相当到位，但更细节的是，像风声、抽泣声，还有抬手、摸脸的音效，都是AI在理解场景后自己补上去的，细节可谓是拉满了。

最后，我上一下难度，测试一下Vidu Q3在16秒内一次性转场、换镜头的丝滑程度。

首帧图片和Prompt如下：

稍等片刻后，我们就得到了这样的结果：

视频地址：https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA

同样是有点小惊喜，Vidu Q3在稳稳按照Prompt换场之后，自行补加了背景的闪电，以及仰视恶龙的角度等细节。

由此可见，现在Vidu Q3，不论是视觉效果亦或是理解意图的能力，都已经是几乎可以达到“为剧而生”的程度。

除了图生音视频之外，Vidu Q3其实用只用自然语言也能做到相似的效果。

同样是支持1-16秒的时长，在文生音视频的界面中，还多出了宽高比的选项，包含16:9、9:16、1:1、4:3和3:4五个比例。

这一次，我们以3D皮克斯风格，只用Prompt的方式生成英文动画片，涵盖镜头切换：

皮克斯3d动画风格。

分镜一（中景/侧面视角）：温暖明亮的背景中，传来衣物摩擦的沙沙声，右侧成年人缓缓蹲下，与左侧小男孩平视。他温和地说：“I know you’re disappointed, buddy. I really am sorry.”手势略微比划，镜头侧拍捕捉着两人之间微妙的距离感。

分镜二（大人视角/小男孩特写）：镜头转到成年人身后，对准小男孩的脸。他眼神低垂，嘴角微微下撇，肩膀无力地耸着。背景音乐渐弱，只听见他一声极轻的、压抑的吸鼻子声。镜头缓缓推近，背景柔化，将失望与无奈的情绪张力拉满。

视频地址：https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA

嗯，整个剧情都是稳稳地按照Prompt指示来展开。

3D皮克斯能拿捏，国产修仙动漫定然也是可以直接复用，类似的分镜，我们只需稍加修改一下场景和台词即可：

视频地址：https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA

由此可见，不同风格短剧、漫剧、影视剧的“迁移学习”、批量生产，在Vidu Q3这里是行得通的。

除此之外，Vidu Q3的文生音视频还有个好玩且实用的用法——渲染文字。

因为画面中的文字（建筑、背景等）渲染得好，才能省去后期二次加工所带来的麻烦，真正做到一次性出片。

实测的Prompt可以是这样的：

伴随着紧张的电子鼓点，《黑客帝国》风格的“0”和“1”数字铺满屏幕，瞬间形成“Vidu”的字样。细节丰富，质感饱满，极具视觉冲击力。

视频地址：https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA

芭提雅的沙滩边上，面向大海，阳光明媚，背景音乐轻快。海上的天空有一个直升机拉着横幅飞过。横幅上有“快来玩Vidu”的字样。

视频地址：https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA

总而言之，不同比例、不同风格，不论是人物、场景亦或是文字素材，Vidu Q3几乎是能够到影视作品的门槛了。

最后，让我们跳出具体的案例，把目光投向整个行业的时间轴。

自从AI视频生成走进大众视线以来，毫不夸张地说，它每次的进化都给人带来不小的惊喜；这种震撼感，或许在某种程度上源于一种历史的压缩。

回看人类电影史，从卢米埃尔兄弟1895年放映《火车进站》（默片），到1927年第一部有声电影问世，人类整整走了32年。

而在AI视频生成领域，从Sora引爆“默片时代”的视觉震撼，到业界有声视频直出，这段路程仅用了不到9个月。

在Sora 2之前，视频生成模型的竞争维度，主要还停留在画面的物理一致性、光影质感以及运动幅度上。

那时候的AI视频，就像是一个画面精美但失语的哑巴，声音往往需要后期单独配音或通过其他工具对口型，割裂感在所难免。

但音视频直出的出现，标志着竞争维度的升维：从单一的视觉生成，进化到了音视频原生的多模态融合。

它证明了在统一的模型架构下，AI不仅能理解物理世界的运动规律，还能理解声音与画面之间微妙的时序关联。这种脑补能力，已经从单纯的生成画面，进化到了导戏。

而Vidu Q3的出现，让这种能力得到了更好地延伸：更长、更稳、更连贯。

尤其是它在16秒时长内能做到一镜到底，可以说是让AI真正具备了完整的叙事能力的短片雏形。

当音视频对齐不再是难题，当多语言表达变得轻而易举，我们有理由相信，AI视频生成的下一个“啊哈 Moment”，或许比我们想象中来得还要快。

毕竟在AI的世界里，一天真的能当一年用。

最后，附上一点小福利：

量子位邀请码 LZW2，登陆Vidu.cn注册，即送500积分，快来体验Vidu Q3最新功能！

Vidu Q3体验地址：

https://www.vidu.cn

Vidu API地址：

https://platform.vidu.cn

{{userData.name}}已认证

这个真人版《火影忍者》竟然是 AI 做的，来自中国 AI 视频新王者 Vidu Q3

四家华人公司上榜！CyberCut、Typeless、Surgeflow、Aha 各个精彩！|Product Hunt 精选 48

马斯克要开一家宇宙公司，开启“拼拼模式”

GPT-5 被批过度炒作、性能落后，OpenAI 联创揭秘其中原因：我们把它关在 “象牙塔”，和现实世界接触不够

【生成式人工智慧與機器學習導論 2025】第 3 講：解剖大型語言模型

Music meets rewards: The Google Play Rewards Tour takes LA

大模型的第一性原理：（二）信号处理篇

如何以及何时构建多智能体系统

DHH：编程的未来、人工智能、Ruby on Rails、生产力与育儿 | Lex Fridman 播客 #474