-
Nano Banana Pro 上线!集成 Gemini 3 与 Veo 3,谷歌不给竞争对手喘息机会
文章详细介绍了谷歌最新发布的文生图模型 Nano Banana Pro,它通过与 Gemini 3 Pro 的多模态理解能力及谷歌搜索的庞大知识库深度整合,大幅提升了图像生成的质量、准确性和专业性。新模型具备理解现实语义与物理逻辑的能力,支持多达 14 张输入图片的一致性混合,并强化了多语言文本渲染功能,能保持原有设计风格进行翻译。Nano Banana Pro 还支持生成高分辨率、专业的信息图表…- 0
- 0
-
接力 DeepSeek,阶跃星辰直接开源两款国产多模态大模型
阶跃星辰联合吉利汽车集团开源了两款多模态大模型:Step-Video-T2V 和 Step-Audio。Step-Video-T2V 是全球范围内参数量最大、性能最好的开源视频生成模型,采用 MIT 许可协议,支持免费商用。该模型使用了深度压缩变分自编码器 Video-VAE,实现了 16×16 的空间压缩比,以及具有 3D 全注意力机制的 DiT,用于将输入噪声去噪成潜在帧。Step-Audio…- 0
- 0
-
Sora 2 发布:OpenAI 的最新视频生成模型
本视频介绍 OpenAI 最新的先进视频生成模型 Sora 2,通过多个生成的片段展示其强大功能。该模型能够创建生动、富有表现力且高度逼真的视频,这些视频具有同步音频,并符合各种场景中的物理定律,例如花样滑冰、动漫烟花、桨板运动、太空中的宇航员狗和牛仔特技演员。Sora 2 在物理世界准确性、真实性、可控性和音视频同步方面超越了以往的系统。它可以通过仅限邀请的 iOS 应用访问,目前在美国和加拿大…- 0
- 0
-
实测可灵 AI 的新视频模型,它生成的动作戏酷到封神。
文章详细评测了可灵 AI 最新视频模型 2.5 版本的能力,重点对比了其在“运动的超进化”和“表演的超进化”两大方面的显著提升。通过与 2.1 版本的对比,文章展示了 2.5 版本在处理复杂连续动作、物理交互细节、多层次情感表达以及运镜稳定性上的突破。作者通过生成《速度与激情》风格的动作片、跑酷、滑雪、拳击等场景,以及人物从愤怒到克制、阴恻恻的笑、绝望到坚定的眼神等情感戏,直观呈现了可灵 2.5 …- 0
- 0
-
Veo 3:Gemini API 新功能上线
本文介绍了 Google 最新的高保真视频生成模型 Veo 3,该模型现已通过 Gemini API 和 Vertex AI 提供付费预览。Veo 3 是首个集成高保真视频输出和原生音频的 Google 视频模型,支持文本生成视频,未来还将支持图像生成视频。它拥有同步声音、电影级质量和逼真物理模拟等功能。本文展示了早期开发者的采用情况,并提供了 Cartwheel(使用 Veo 3 进行 3D 动…- 0
- 0
-
王炸组合,阶跃星辰 SOTA 模型 Step-Video 和 Step-Audio 模型开源
阶跃星辰开源了两款 Step 系列多模态模型:Step-Video-T2V 和 Step-Audio。Step-Video-T2V 是一个文本转视频模型,通过深度压缩 VAE、3D 全注意力 DiT 和视频 DPO 等技术,实现了高质量视频生成,并在 Step-Video-T2V-Eval 基准测试中表现出色。Step-Audio 是业界首个产品级开源实时语音对话系统,集语音理解与生成控制于一体,…- 0
- 0
-
Veo 3.1 提示工程终极指南
本文介绍了谷歌最新的生成式视频模型 Veo 3.1,强调了其从简单生成到为创作者提供高级创意控制的转变。它突出了 Veo 3.1 的核心功能,包括高保真视频生成(720p/1080p)、可变剪辑长度、丰富的同步音频和对话以及复杂的场景理解。详细介绍了关键的高级控制,例如:改进的图像到视频动画;通过“视频素材组合”实现元素一致性;通过“首尾帧过渡”实现无缝过渡;以及对象添加/删除功能。为了有效地利用…- 0
- 0
-
Wan2.2 开源:让每个像素都懂电影美学
文章详细介绍了通义大模型最新发布的 Wan2.2 视频生成模型。该模型在技术上引入了 MoE(混合专家)架构,通过高噪和低噪专家模型协同去噪,显著提升了视频生成质量和真实感。在艺术表现力方面,Wan2.2 通过扩充数据规模和专业美学深度训练,将电影工业的光影、构图、色彩等美学法则编码进模型,实现了电影级的视觉控制和精细的风格表现。此外,模型还通过全新的 VAE 架构,推出了 5B 轻量版,大幅减少…- 0
- 0
-
阿里再开源,全球首个 MoE 视频生成模型登场,电影级美学效果一触即达 | 机器之心
文章宣布了阿里巴巴开源了全球首个基于 MoE(专家混合)架构的视频生成模型 Wan2.2,并遵循 Apache 2.0 开源协议。该模型的最大亮点在于其电影级美学控制能力。Wan2.2 的核心技术创新包括:首次在视频扩散模型中引入 MoE 架构,通过专家模型分担去噪过程,在不增加计算成本的前提下大幅扩展了模型容量;训练数据量相比前代大幅提升,显著增强了模型在运动表达、语义理解和美学表现等多维度的泛…- 0
- 0
-
何必 DiT!字节首次拿着自回归,单 GPU 一分钟生成 5 秒 720p 视频 | NeurIPS'25 Oral
文章详细介绍了字节跳动商业化技术团队提出的 InfinityStar 视频生成方法,该方法成功入围 NeurIPS'25 Oral。InfinityStar 旨在解决当前主流扩散模型(如 DiT)在视频生成领域计算复杂度高、资源消耗大的问题。作为首个在 VBench 上超越扩散模型的离散自回归视频生成器,InfinityStar 实现了视频生成质量和效率的兼顾,告别了传统扩散模型百步去噪…- 0
- 0
视频生成
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
✈优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!









