本文汇总了 2026 年 1 月 14 日的最新 AI 开源项目,主要介绍了六项前沿技术和工具。其中包括智谱与华为合作开源的图像生成模型 GLM-Image,该模型在文本渲染和知识密集型生成方面表现出色,并支持多种图像到图像任务。此外,还介绍了专为医疗领域设计的指令调优模型 MedGemma 1.5 和语音转文字模型 MedASR。工具方面,有支持 Model Context Protocol 的视频生成工具 PixVerse MCP,以及旨在通过自适应渐进偏好优化减少 LLM 代码生成错误的 AP2O 项目。最后,还提到了由 THUNLP 等机构联合开发的开源大型语言模型 Agent 系列——AgentCPM,其最新版本 AgentCPM-Explore 是首个具有 40 亿参数并在八个基准上表现优异的开源 Agent 模型。整体呈现了 AI 在图像生成、医疗 AI、视频生成、代码优化和 Agent 发展上的最新进展。
🏆基座模型
①项目:GLM-Image

★GLM-Image是一种图像生成模型,采用混合自回归和扩散解码器架构。在一般图像生成质量上,GLM-Image与主流潜在扩散方法一致,但在文本渲染和知识密集型生成场景中表现出显著优势。该模型在需要精确语义理解和复杂信息表达的任务中表现尤为出色,同时在高保真和细粒度细节生成方面保持强大能力。除了文本到图像生成,GLM-Image还支持丰富的图像到图像任务,包括图像编辑、风格迁移、身份保留生成和多主体一致性。
☆一键收藏:
https://sota.jiqizhixin.com/project/glm-image
②项目:MedGemma 1.5

★MedGemma 1.5是一个多模态指令调优的模型,专为医疗文本和图像理解而训练。它支持多种医疗成像和数据处理应用,包括高维医疗成像、全片病理成像、纵向医疗成像、解剖定位和医疗文档理解。该模型在医疗文本推理和标准2D图像解释方面提供了改进的准确性。MedGemma 1.5使用SigLIP图像编码器,经过去识别化的医疗数据预训练,适用于需要文本生成的医疗应用。
☆一键收藏:
https://sota.jiqizhixin.com/project/medgemma-1-5
③项目:MedASR

★MedASR是一个基于Conformer架构的语音转文字模型,专为医疗领域的听写任务预训练。该模型适用于涉及医学术语的听写任务,如放射学听写和医生与患者的对话转录。尽管MedASR在大量医学音频数据上进行了广泛的预训练,但在遇到非标准药物名称或时间数据(如日期、时间或持续时间)时,可能会表现出性能的变化。
☆一键收藏:
https://sota.jiqizhixin.com/project/medasr
🛠️ 框架平台、必备工具
①项目:PixVerse MCP

★PixVerse MCP是一个强大的工具,允许用户通过支持Model Context Protocol (MCP) 的应用程序访问PixVerse的最新视频生成模型。该集成使用户能够生成高质量的视频,具备高级功能,包括文本转视频、图像转视频、视频扩展、过渡、唇同步、声音效果等。
☆一键收藏:
https://sota.jiqizhixin.com/project/pixverse-mcp
②项目:AP2O

★AP2O项目旨在通过自适应渐进偏好优化(AP2O)减少大语言模型(LLM)生成代码中的编译和运行时错误。该项目的核心是通过优化偏好数据的生成和使用,提高代码生成的准确性和效率。项目采用了一系列先进的机器学习技术和工具,目标是提升代码生成的可靠性和数据使用效率。
☆一键收藏:
https://sota.jiqizhixin.com/project/ap2o
🤖 Agent 开发
①项目:AgentCPM

★AgentCPM是由THUNLP、人民大学、ModelBest和OpenBMB联合开发的一系列开源大型语言模型Agent。其最新版本AgentCPM-Explore是首个在八个广泛使用的长时程Agent基准上出现的开源Agent模型,具有40亿参数。该项目旨在系统地构建Agent的深度研究能力,提供完整的训练和评估基础设施,支持社区开发和自定义扩展。
☆一键收藏:
https://sota.jiqizhixin.com/project/agentcpm

