文章详细介绍了 Runway 最新发布的文本转视频模型 Gen-4.5,该模型在 Artificial Analysis 基准测试中以 1247 Elo 评分超越所有现有模型,达到 SOTA 水平。Gen-4.5 在运镜、视角切换、复杂场景(如人照镜子)、物理效果(如尘土、重量感、颜料干湿变化)及光影处理方面展现出前所未有的真实感和细节。它能理解并执行复杂的序列式指令,同时保持了 Gen-4 在速度和效率上的核心优势,并实现了画质的突破性提升。该模型支持所有已有的控制模式,例如图片转视频、关键帧生成等,并计划以现有订阅价格开放给所有用户。尽管文章提及模型在因果推理和物体恒存性方面仍存在局限,但其高质量的生成能力被网友誉为“视频生成 AGI 时刻”,预示着 AI 生成内容与真实内容将更难区分。
西风 鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI
“视频生成AGI时刻”,这是Runway Gen-4.5突袭发布后获得的评价。
趁着ChatGPT发布三周年,AI圈开始过年啦(doge)。
最新发布的Runway Gen-4.5以1247 Elo评分——在Artificial Analysis文本转视频基准测试中拿下SOTA,超越所有现有模型。
直接来看效果。
运镜、视角切换很丝滑,文字也能很好地生成:
人照镜子这种复杂场景,几乎看不出破绽:
汽车疾驰尘土飞扬,还有很真实的颠簸感:
下面这个刷墙视频也能看到很多细节,已经刷过的地方颜料干了,颜色会稍微浅一点:
纵观Gen 1到Gen4.5两年迭代,质感全面蜕变:
视频链接:https://mp.weixin.qq.com/s/Pm1i0s1_-1JNiCJoJ_vOyg
网友们纷纷评价道:“颠覆者”。
尤其是其前所未有的物理和视觉准确性,不只是更美观,这下真实内容与AI生成内容更难以区分了。
官方表示正在逐步开放Runway Gen-4.5的使用权限,未来几天内所有用户都能体验到。
并且“加量不加价”,会以和当前订阅套餐相近的价格全面开放。
超强物理还原度与视觉精准度
下面来看官方介绍。
首先,Gen-4.5主打擅长理解并执行复杂的序列式指令。
换句话说,你可在单个提示词中精准指定详细的镜头运镜方式、复杂的场景构图、事件的精确时间节点,以及细微的氛围变化。
Gen-4.5既保留了Gen-4在速度和效率上的核心优势,又实现了画质层面的突破性提升。
对比Gen-2,运行相同的提示be like:
其次,物理还原度与视觉精准度也是一大核心卖点。
其生成的视频物体移动具备符合现实的重量感与动量特征,物体表面呈现出与现实世界一致的物理特性。
街头滑滑板效果很逼真:
速度提升,背景模糊处理也很有质感:
当然,遵循还是突破物理定律,全靠你的创作构想。
你也可以让小羊拉北极熊(doge):
各种风格都能驾驭:
3D绘画风格也可以:
在网友们都关心的可控性方面,官方表示除了文本生成视频,会为Gen-4.5适配所有已有的控制模式,比如图片转视频、关键帧生成、视频转视频等。
值得一提的是,官方还毫不避讳模型局限性:
尽管该模型的能力实现了质的飞跃,但仍存在一些局限性,例如因果推理与物体恒存性(即理解“物体即使看不见也依然存在”的认知能力)方面表现不足。
好消息是,目前团队正在进行相关优化了。
最后再来看两个长视频展示~
视频链接:
https://mp.weixin.qq.com/s/Pm1i0s1_-1JNiCJoJ_vOyg
