今日开源（2026-1-14）：智谱×华为开源 GLM-Image！混合架构强化精确语义理解，文本渲染+复杂信息表达表现优异

本文汇总了 2026 年 1 月 14 日的最新 AI 开源项目，主要介绍了六项前沿技术和工具。其中包括智谱与华为合作开源的图像生成模型 GLM-Image，该模型在文本渲染和知识密集型生成方面表现出色，并支持多种图像到图像任务。此外，还介绍了专为医疗领域设计的指令调优模型 MedGemma 1.5 和语音转文字模型 MedASR。工具方面，有支持 Model Context Protocol 的视频生成工具 PixVerse MCP，以及旨在通过自适应渐进偏好优化减少 LLM 代码生成错误的 AP2O 项目。最后，还提到了由 THUNLP 等机构联合开发的开源大型语言模型 Agent 系列——AgentCPM，其最新版本 AgentCPM-Explore 是首个具有 40 亿参数并在八个基准上表现优异的开源 Agent 模型。整体呈现了 AI 在图像生成、医疗 AI、视频生成、代码优化和 Agent 发展上的最新进展。

🏆基座模型

①项目：GLM-Image

★GLM-Image是一种图像生成模型，采用混合自回归和扩散解码器架构。在一般图像生成质量上，GLM-Image与主流潜在扩散方法一致，但在文本渲染和知识密集型生成场景中表现出显著优势。该模型在需要精确语义理解和复杂信息表达的任务中表现尤为出色，同时在高保真和细粒度细节生成方面保持强大能力。除了文本到图像生成，GLM-Image还支持丰富的图像到图像任务，包括图像编辑、风格迁移、身份保留生成和多主体一致性。

☆一键收藏：

https://sota.jiqizhixin.com/project/glm-image

②项目：MedGemma 1.5

今日开源（2026-1-14）：智谱×华为开源 GLM-Image！混合架构强化精确语义理解，文本渲染+复杂信息表达表现优异

★MedGemma 1.5是一个多模态指令调优的模型，专为医疗文本和图像理解而训练。它支持多种医疗成像和数据处理应用，包括高维医疗成像、全片病理成像、纵向医疗成像、解剖定位和医疗文档理解。该模型在医疗文本推理和标准2D图像解释方面提供了改进的准确性。MedGemma 1.5使用SigLIP图像编码器，经过去识别化的医疗数据预训练，适用于需要文本生成的医疗应用。

☆一键收藏：

https://sota.jiqizhixin.com/project/medgemma-1-5

③项目：MedASR

今日开源（2026-1-14）：智谱×华为开源 GLM-Image！混合架构强化精确语义理解，文本渲染+复杂信息表达表现优异

★MedASR是一个基于Conformer架构的语音转文字模型，专为医疗领域的听写任务预训练。该模型适用于涉及医学术语的听写任务，如放射学听写和医生与患者的对话转录。尽管MedASR在大量医学音频数据上进行了广泛的预训练，但在遇到非标准药物名称或时间数据（如日期、时间或持续时间）时，可能会表现出性能的变化。

☆一键收藏：

https://sota.jiqizhixin.com/project/medasr

🛠️ 框架平台、必备工具

①项目：PixVerse MCP

今日开源（2026-1-14）：智谱×华为开源 GLM-Image！混合架构强化精确语义理解，文本渲染+复杂信息表达表现优异

★PixVerse MCP是一个强大的工具，允许用户通过支持Model Context Protocol (MCP) 的应用程序访问PixVerse的最新视频生成模型。该集成使用户能够生成高质量的视频，具备高级功能，包括文本转视频、图像转视频、视频扩展、过渡、唇同步、声音效果等。

☆一键收藏：

https://sota.jiqizhixin.com/project/pixverse-mcp

②项目：AP2O

今日开源（2026-1-14）：智谱×华为开源 GLM-Image！混合架构强化精确语义理解，文本渲染+复杂信息表达表现优异

★AP2O项目旨在通过自适应渐进偏好优化（AP2O）减少大语言模型（LLM）生成代码中的编译和运行时错误。该项目的核心是通过优化偏好数据的生成和使用，提高代码生成的准确性和效率。项目采用了一系列先进的机器学习技术和工具，目标是提升代码生成的可靠性和数据使用效率。

☆一键收藏：

https://sota.jiqizhixin.com/project/ap2o

🤖 Agent 开发

①项目：AgentCPM

今日开源（2026-1-14）：智谱×华为开源 GLM-Image！混合架构强化精确语义理解，文本渲染+复杂信息表达表现优异

★AgentCPM是由THUNLP、人民大学、ModelBest和OpenBMB联合开发的一系列开源大型语言模型Agent。其最新版本AgentCPM-Explore是首个在八个广泛使用的长时程Agent基准上出现的开源Agent模型，具有40亿参数。该项目旨在系统地构建Agent的深度研究能力，提供完整的训练和评估基础设施，支持社区开发和自定义扩展。

☆一键收藏：

https://sota.jiqizhixin.com/project/agentcpm

{{userData.name}}已认证

今日开源（2026-1-14）：智谱×华为开源 GLM-Image！混合架构强化精确语义理解，文本渲染+复杂信息表达表现优异

Vercel 开源用于本地文件系统上下文检索的 Bash 工具

Manus 走了，原生 Agent 登场：“AI 助手”的第三次重新定义

鹏鼎控股斥资百亿打造深圳AI智能智造新基地

我们真的需要人形机器人吗？

5000 万用户、5000 万美金 ARR，全球第一 AI 创作消费平台要做 AI 时代 Roblox

AI 不缺智商缺纪律：我的 Harness 工程化实践

RTP-LLM 在相关性大模型中的推理优化最佳实践

Claude 代码框架之战