10 亿红包后,我们打算开源这个 800 亿的模型

本文介绍了腾讯混元图像 3.0 图生图模型(HunyuanImage 3.0-Instruct)的正式开源。该模型基于 80B 总参数(激活参数约 13B)的混合专家架构(MoE),是目前全球最强的开源图像编辑模型之一。其核心创新在于将文本理解、视觉理解与图像生成深度融合,并引入了思维链(CoT)数据,使模型具备“先思考,后编辑”的能力。通过自研的 MixGRPO 算法,模型在指令响应和非编辑区域的一致性保持上表现优异。目前,该模型在 LMArena 图像编辑榜单上位列全球第七,支持包括增删改、风格变换、老照片修复及多图融合在内的多种复杂任务,开发者可通过 GitHub 和 Hugging Face 获取相关权重及代码。




10 亿红包后,我们打算开源这个 800 亿的模型

两天前在元宝和腾讯混元官网同步上线的混元图像3.0图生图模型(HunyuanImage 3.0-Instruct)大家都玩了吗?恰逢元宝春节10亿红包活动,可以一边玩修图一边抢红包。

在元宝,我们看到了不少非常有意思的玩法,比如:

10 亿红包后,我们打算开源这个 800 亿的模型

也可以用于老照片修复上色:

10 亿红包后,我们打算开源这个 800 亿的模型

还有许多有趣的玩法:

10 亿红包后,我们打算开源这个 800 亿的模型

10 亿红包后,我们打算开源这个 800 亿的模型

10 亿红包后,我们打算开源这个 800 亿的模型

为了便利开发者使用,现在,我们把这个会思考、懂推理,并且有多种花式玩法的模型正式开源了。

混元图像3.0图生图基于80B总参数规模(激活参数约13B)的混合专家架构,在处理图像编辑任务时展现出强大的推理能力和精准的编辑效果。

训练过程中,混元团队构建了千万量级的图生图数据,覆盖80多个任务,并注入了思维链数据,使模型能够学会先分析用户图像和意图,再输出详细编辑指令。

后训练阶段采用自研MixGRPO算法,高效对齐用户偏好,大幅提升了指令响应和非编辑区域保持一致的效果。

最新全球权威大模型竞技场 LMArena 的Image Edit(图片编辑)榜单腾讯混元图像3.0图生图位列全球第七进入第一梯队成为全球最强开源图生图模型

10 亿红包后,我们打算开源这个 800 亿的模型

LMArena官方 祝贺混元图像3.0图生图模型:

图片编辑类别与Nano-Banana和Seedream-4.5等表现相当

这一成绩来自于对模型图像编辑能力的全面评估,包括指令遵循、编辑精确度和输出质量等多个维度。

混元图像3.0图生图支持多样化的图片编辑与多图融合能力,包括增、删、改、风格变换、老照片修复、人物与文字修改等图片编辑功能,以及将多张照片中的元素提取出来合成新图片的能力。

对于普通用户,该模型可用于制作表情包、虚拟人物合拍、社交分享等日常场景。对于专业用户,它能够助力电商海报设计、游戏角色定制、创意图片制作等专业领域,显著提升创作效率。

混元图像3.0图生图版本基于混元图像3.0的原生多模态架构,将文本理解、视觉理解与图像生成深度融合于同一模型中,这使得模型更能理解用户指令,生成的效果也更好。

作为原生多模态模型混元图像3.0图生图核心创新在于其“先思考,后编辑”的工作流程。当接收到用户输入的图片和提示词后,模型会首先理解图像内容,然后基于提示词进行推理,确定需要编辑的区域、详细步骤以及需要保留的区域,最终形成更加详细的编辑指令。

2025年9月,混元图像3.0文生图模型开源后,在LMArena全球文生图盲测榜单中位列第一本次混元图像3.0图生图版本的开源是腾讯混元大模型系列的最新进展,开发者可通过Github和Hugging Face等主流开源平台获取混元图像3.0图生图模型权重及完整代码。

混元图像3.0图生图版本的开源,将为全球开发者和研究者提供一个强大的基础平台,助力社区在其基础上进行应用研发和二次开发,以下是混元图像3.0图生图开源项目地址,欢迎点赞(🌟)并给我们反馈:


AI 前线

HTML Invoker Commands 在所有主流浏览器中实现基准支持

2026-1-31 19:01:13

AI 前线

Kimi 玩了把大的,Agent 团战的时代要来了。

2026-1-31 19:01:18

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索