全部标签

视频生成

Sora 2 介绍

OpenAI 推出了其下一代视频和音频生成系统 Sora 2，以及新的 Sora 应用。Sora 2 在处理物理交互、生成更长且更连贯的叙事，以及将音频直接与视频集成方面，展示了显著的进步。“Cameo”功能是其亮点，它使用户能够将自己或他人放置到 AI 生成的场景中。Sora 应用提供了一个社交媒体风格的界面，旨在培养一种新的基于视频的沟通形式，并强调用户生成的 AI 内容。该平台整合了强大的安…
AI 前线
- 0
- 0
勇敢牛牛25年12月31日
Nano Banana Pro 上线！集成 Gemini 3 与 Veo 3，谷歌不给竞争对手喘息机会

文章详细介绍了谷歌最新发布的文生图模型 Nano Banana Pro，它通过与 Gemini 3 Pro 的多模态理解能力及谷歌搜索的庞大知识库深度整合，大幅提升了图像生成的质量、准确性和专业性。新模型具备理解现实语义与物理逻辑的能力，支持多达 14 张输入图片的一致性混合，并强化了多语言文本渲染功能，能保持原有设计风格进行翻译。Nano Banana Pro 还支持生成高分辨率、专业的信息图表…
AI 前线
- 0
- 0
勇敢牛牛25年12月31日
接力 DeepSeek，阶跃星辰直接开源两款国产多模态大模型

阶跃星辰联合吉利汽车集团开源了两款多模态大模型：Step-Video-T2V 和 Step-Audio。Step-Video-T2V 是全球范围内参数量最大、性能最好的开源视频生成模型，采用 MIT 许可协议，支持免费商用。该模型使用了深度压缩变分自编码器 Video-VAE，实现了 16×16 的空间压缩比，以及具有 3D 全注意力机制的 DiT，用于将输入噪声去噪成潜在帧。Step-Audio…
AI 前线
- 0
- 0
泪满春衫袖25年12月28日
美团视频生成模型来了！一出手就是开源 SOTA

文章详细介绍了美团最新开源的视频生成模型 LongCat-Video，该模型参数为 13.6B，支持文生视频、图生视频及核心的视频延长功能，能稳定生成长达数分钟的视频且无质量下降。LongCat-Video 在开源模型中表现顶尖，部分核心能力可与谷歌闭源模型 Veo3 媲美，尤其在物理世界理解和常识性维度上具有领先优势。技术上，模型基于 Diffusion Transformer 框架，通过将所有…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
Sora 2 发布：OpenAI 的最新视频生成模型

本视频介绍 OpenAI 最新的先进视频生成模型 Sora 2，通过多个生成的片段展示其强大功能。该模型能够创建生动、富有表现力且高度逼真的视频，这些视频具有同步音频，并符合各种场景中的物理定律，例如花样滑冰、动漫烟花、桨板运动、太空中的宇航员狗和牛仔特技演员。Sora 2 在物理世界准确性、真实性、可控性和音视频同步方面超越了以往的系统。它可以通过仅限邀请的 iOS 应用访问，目前在美国和加拿大…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
实测可灵 AI 的新视频模型，它生成的动作戏酷到封神。

文章详细评测了可灵 AI 最新视频模型 2.5 版本的能力，重点对比了其在“运动的超进化”和“表演的超进化”两大方面的显著提升。通过与 2.1 版本的对比，文章展示了 2.5 版本在处理复杂连续动作、物理交互细节、多层次情感表达以及运镜稳定性上的突破。作者通过生成《速度与激情》风格的动作片、跑酷、滑雪、拳击等场景，以及人物从愤怒到克制、阴恻恻的笑、绝望到坚定的眼神等情感戏，直观呈现了可灵 2.5 …
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
Veo 3：Gemini API 新功能上线

本文介绍了 Google 最新的高保真视频生成模型 Veo 3，该模型现已通过 Gemini API 和 Vertex AI 提供付费预览。Veo 3 是首个集成高保真视频输出和原生音频的 Google 视频模型，支持文本生成视频，未来还将支持图像生成视频。它拥有同步声音、电影级质量和逼真物理模拟等功能。本文展示了早期开发者的采用情况，并提供了 Cartwheel（使用 Veo 3 进行 3D 动…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
王炸组合，阶跃星辰 SOTA 模型 Step-Video 和 Step-Audio 模型开源

阶跃星辰开源了两款 Step 系列多模态模型：Step-Video-T2V 和 Step-Audio。Step-Video-T2V 是一个文本转视频模型，通过深度压缩 VAE、3D 全注意力 DiT 和视频 DPO 等技术，实现了高质量视频生成，并在 Step-Video-T2V-Eval 基准测试中表现出色。Step-Audio 是业界首个产品级开源实时语音对话系统，集语音理解与生成控制于一体，…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
Veo 3.1 提示工程终极指南

本文介绍了谷歌最新的生成式视频模型 Veo 3.1，强调了其从简单生成到为创作者提供高级创意控制的转变。它突出了 Veo 3.1 的核心功能，包括高保真视频生成（720p/1080p）、可变剪辑长度、丰富的同步音频和对话以及复杂的场景理解。详细介绍了关键的高级控制，例如：改进的图像到视频动画；通过“视频素材组合”实现元素一致性；通过“首尾帧过渡”实现无缝过渡；以及对象添加/删除功能。为了有效地利用…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
Wan2.2 开源：让每个像素都懂电影美学

文章详细介绍了通义大模型最新发布的 Wan2.2 视频生成模型。该模型在技术上引入了 MoE（混合专家）架构，通过高噪和低噪专家模型协同去噪，显著提升了视频生成质量和真实感。在艺术表现力方面，Wan2.2 通过扩充数据规模和专业美学深度训练，将电影工业的光影、构图、色彩等美学法则编码进模型，实现了电影级的视觉控制和精细的风格表现。此外，模型还通过全新的 VAE 架构，推出了 5B 轻量版，大幅减少…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
阿里再开源，全球首个 MoE 视频生成模型登场，电影级美学效果一触即达｜机器之心

文章宣布了阿里巴巴开源了全球首个基于 MoE（专家混合）架构的视频生成模型 Wan2.2，并遵循 Apache 2.0 开源协议。该模型的最大亮点在于其电影级美学控制能力。Wan2.2 的核心技术创新包括：首次在视频扩散模型中引入 MoE 架构，通过专家模型分担去噪过程，在不增加计算成本的前提下大幅扩展了模型容量；训练数据量相比前代大幅提升，显著增强了模型在运动表达、语义理解和美学表现等多维度的泛…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
何必 DiT！字节首次拿着自回归，单 GPU 一分钟生成 5 秒 720p 视频 | NeurIPS'25 Oral

文章详细介绍了字节跳动商业化技术团队提出的 InfinityStar 视频生成方法，该方法成功入围 NeurIPS'25 Oral。InfinityStar 旨在解决当前主流扩散模型（如 DiT）在视频生成领域计算复杂度高、资源消耗大的问题。作为首个在 VBench 上超越扩散模型的离散自回归视频生成器，InfinityStar 实现了视频生成质量和效率的兼顾，告别了传统扩散模型百步去噪…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日