全部标签

图像生成

Gemini 2.0 Flash 原生图像生成实验：开发者的新选择

Google 发布了 Gemini 2.0 Flash 的实验版本，该版本引入了原生图像生成功能，并已向所有 Google AI Studio 支持的区域的开发者开放。Gemini 2.0 Flash 结合了多模态输入、增强的推理能力和自然语言理解，可以根据用户需求生成图像。文章通过多个示例展示了 Gemini 2.0 Flash 在文本图像结合、会话式图像编辑、世界知识理解和文本渲染方面的优势。…
AI 前线
- 0
- 0
勇敢牛牛1月3日
一文读懂｜DeepSeek 除夕发布新模型，多模态大一统的革命来了？

文章深入解读了 DeepSeek 最新发布的开源多模态模型 Janus-Pro。该模型创新性地采用双编码器架构，分别负责图像理解和生成，突破了传统大一统模型的性能瓶颈。文章详细分析了 Janus-Pro 的架构设计和**三阶段创新训练方法**，包括锁参数训练适配器、弃用 ImageNet 拥抱真实数据、以及优化数据配比等关键策略。评测结果显示，Janus-Pro-7B 在多模态理解和图像生成基准测…
AI 前线
- 0
- 0
勇敢牛牛1月3日
刚刚，GPT-4o 原生图像生成上线，P 图、生图也就一嘴的事

OpenAI 悄然推出了 GPT-4o 原生图像生成功能，该功能现已向 Plus、Pro、Team 和免费用户推出，作为 ChatGPT 中的默认图像生成器。GPT-4o 的图像生成能力具有突出优势，它能精准呈现文字内容，严格遵循指令要求，并充分调用内置知识库和对话上下文，通过视觉表达实现更高效的沟通，从而将图像生成技术升级为兼具精确性与实用性的强大工具。此外，GPT-4o 还具有持续生成、指令遵…
AI 前线
- 0
- 0
勇敢牛牛1月3日
Nano Banana Pro 上线！集成 Gemini 3 与 Veo 3，谷歌不给竞争对手喘息机会

文章详细介绍了谷歌最新发布的文生图模型 Nano Banana Pro，它通过与 Gemini 3 Pro 的多模态理解能力及谷歌搜索的庞大知识库深度整合，大幅提升了图像生成的质量、准确性和专业性。新模型具备理解现实语义与物理逻辑的能力，支持多达 14 张输入图片的一致性混合，并强化了多语言文本渲染功能，能保持原有设计风格进行翻译。Nano Banana Pro 还支持生成高分辨率、专业的信息图表…
AI 前线
- 0
- 0
勇敢牛牛25年12月31日
Nano Banana Pro：用 Gemini 3 Pro 图像模型构建创意应用

谷歌发布了 Nano Banana Pro (Gemini 3 Pro 图像)，这是一款基于 Gemini 3 Pro 的新型图像生成和编辑模型。目前，开发者可以付费预览版体验。它强调了该模型能够生成具有更高文本渲染准确性和强大世界知识的录音室质量图像，并通过谷歌搜索提供的事实依据进行增强。主要功能包括对图像物理和构图的精细控制，支持 2K 和 4K 分辨率，以及一致的角色呈现效果。该模型显著提升…
AI 前线
- 0
- 0
拼凑梦境25年12月30日
谷歌 nano banana 正式上线：单图成本不到 3 毛钱，比 OpenAI 便宜 95%

文章详细介绍了谷歌最新发布的图像生成与编辑模型 Gemini 2.5 Flash Image Preview。该模型以其卓越的图像生成与编辑能力、惊人的角色一致性以及极快的处理速度为主要亮点。文章指出，该模型已在 Google AI Studio 和 Gemini API 中提供免费预览，并强调其每张图像生成成本远低于 OpenAI 同类产品，具有显著的成本效益。功能上，Gemini 2.5 Fl…
技术落地
- 0
- 0
勇敢牛牛25年12月30日
小红书联合复旦开源 InstanceAssemble：实现 AI 图像精准排版控制

近日，小红书与复旦大学联合发布了在布局控制生成（Layout-to-Image）领域的最新研究成果——InstanceAssemble。这项技术旨在解决 AI 绘画中长期存在的“构图难”问题，通过创新的机制实现了从简单到复杂场景的精准图像生成。据悉，相关论文已被人工智能顶级会议 NeurIPS2025收录。在目前的 AI 绘画领域，虽然“文字生成图像”已趋于成熟，但在“布局控制生成”方…
AI 前线
- 0
- 0
探索X25年12月29日
一文搞懂 AI 绘画风格

本文深入探讨了 AI 绘画中各类绘画风格的应用，并提供了关键词参考，能够帮助读者更精准地控制 AI 生成图像的风格。文章将绘画风格分为传统绘画艺术风格、现代数字艺术风格和新兴流行趋势三大类，详细介绍了每种风格的起源、特点、代表作品以及在 AI 图像生成中的应用，例如写实主义、印象派、立体主义、赛博朋克、蒸汽波等，并分析了 AI 在模拟这些风格时的优势与局限。为 AI 绘画爱好者提供了实用的参考和指…
AI 前线
- 14
- 0
勇敢牛牛25年12月24日
刚刚，OpenAI 最强图像生成 API 上线，一张图 1 毛 5！

OpenAI 发布了其最新的图像生成模型 API：gpt-image-1，它集成了图像生成、图像编辑和图像变体三大核心功能，支持各种高级功能的定制。与 GPT-4o 不同的是，gpt-image-1 支持更高级的定制，例如输出图像的质量、尺寸、格式和压缩程度，甚至可以选择是否需要透明背景。该 API 的定价也更具竞争力，低质量图像的生成成本低至 0.02 美元。Adobe 和 Canva 等公司已…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
「香蕉革命」首揭秘！谷歌疯狂工程师死磕文字渲染，竟意外炼出最强模型

文章详细介绍了谷歌最新发布的图像模型 nano banana，该模型因其颠覆性能力在 AI 社区引发“香蕉革命”。它能融合最多 13 张图片生成全新画面，并具备理解地理、建筑与物理结构的能力，甚至能将二维地图转化为三维景观。凭借 Gemini 的强大世界知识和独特的交错生成技术，nano banana 实现了“有记忆”的多轮创作，确保了极高的一致性和创造力，例如实现人物动作复刻、定制试衣、老照片修…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
智源 OmniGen2 登场，国产多模态图像生成开源！一周狂揽 2000 星外网爆火

智源研究院发布了统一图像生成模型 OmniGen2 的重大升级版本，该开源模型采用创新架构支持文本到图像生成、图像编辑、主题驱动图像生成等多种任务。OmniGen2 采用分离式架构和 ViT/VAE 双编码器策略，显著提升了图像生成质量和指令遵循能力，并引入创新的图像生成反思机制。模型发布一周内 GitHub 星标突破 2000，X 平台相关话题浏览量达数十万。文章详细展示了模型在图像编辑、多模态…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
Nano Banana Pro，也称 gemini-3-pro-image-preview，是目前最好的图像生成模型

本文介绍了谷歌的新图像生成模型 Nano Banana Pro（也称为 Gemini 3 Pro Image），强调了其惊人的能力。它擅长高分辨率输出（1K-4K）、复杂资产的高级文本渲染，并利用谷歌搜索进行实时数据支持。该模型还具有独特的“思考模式”，可以在生成最终图像之前改进复杂提示。作者通过详细的例子展示了它的强大功能，包括复杂的指导图像和信息图表的创建，展示了它精确遵循指令并准确渲染文本的…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
Gemini 2.5 Flash 图像处理模型现已量产，支持全新长宽比

本文宣布谷歌 Gemini 2.5 Flash 图像处理模型正式面向生产环境推出，重点介绍了其在图像生成和编辑方面的先进功能。主要新功能包括支持 10 种不同的长宽比，方便用户为电影、社交媒体等各种平台创建内容，并支持仅输出图像。该模型使用户能够无缝混合多个图像，保持角色一致性以实现更丰富的叙事，使用自然语言进行精准编辑，并利用 Gemini 广泛的通用知识。开发者可以通过 Gemini API、…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
期待崩塌：GPT-5，输给了香蕉｜赛博月刊 2509

文章以“赛博月刊”形式，全面梳理了 2025 年 8 月人工智能行业的关键动态。在语言模型方面，指出 GPT-5 等新模型能力提升的边际价值递减，行业重心转向降低推理成本和挖掘垂直小模型潜力。与此形成鲜明对比的是，Nano-Banana 等图像生成技术在一致性上取得突破，已具备生产力工具实力，预示 AI 将彻底重塑图片编辑领域。视频和音频领域稳步发展，数字人技术加速但应用前景仍存疑问。3D 和具身…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
不止会“画”，更会“想”｜Seedream 4.0 图像创作模型正式发布

文章详细介绍了字节跳动 Seed 团队发布的 Seedream 4.0 新一代图像创作模型。该模型采用统一架构，深度融合文生图与通用编辑能力，并在多模态效果、速度和可用性上实现显著突破。Seedream 4.0 增强了逻辑理解和推理能力，能处理物理和时间约束、解谜等复杂任务，并支持灵活的文本与图像组合输入。其核心亮点包括支持 4K 超高清生成、自适应长宽比，以及通过高效架构和极致蒸馏加速实现的超 …
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
#215. Google 团队揭秘最新图像模型 Nano-Banana 的幕后故事

本期播客深入 Google DeepMind 团队，揭秘其全新原生图像生成模型 Nano-Banana 的研发历程与技术细节。嘉宾们详细介绍了模型在图像生成与编辑领域的突破性进展，包括通过自然语言实现多轮编辑、保持场景和角色一致性、以及高效的像素级精准编辑能力。播客特别阐述了“交错生成”技术如何将复杂任务分解执行，类似于语言模型的“思考链”，以及团队如何利用“文本渲染”作为衡量模型结构理解能力的“…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
Nano Banana 核心团队：图像生成质量几乎到顶了，下一步是让模型读懂用户的 intention

文章深入访谈了 Google Gemini 2.5 Flash 图像模型（昵称 Nano Banana）核心团队研究员 Nicole Brichtova 和 Oliver Wang。团队指出，当前图像生成质量已接近顶峰，未来的核心挑战在于提升模型对用户意图的理解能力，并将其从创意工具转变为信息查询工具。他们强调，将大型语言模型（LLM）的“世界知识”融入图像模型至关重要，能使其处理更复杂的需求。文…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日