本文是魔搭(ModelScope)社区 2026 年 1 月下旬的资源更新汇总。文章详细介绍了多款重磅开源模型:包括智谱 AI 的轻量化 SOTA 模型 GLM-4.7-Flash;通义千问团队支持超低延迟流式合成的 Qwen3-TTS 系列;FlashLabs 开发的全球首个开源端到端实时语音交互模型 Chroma-4B;以及阶跃星辰发布的以 10B 参数挑战千亿规模性能的视觉语言模型 Step3-VL-10B。此外,还涵盖了 LightOnOCR-2 高效文档解析模型,以及 ShapeR-Evaluation、TeleVRSLU 等 3D 重建与虚拟现实领域的专业数据集,并提供了相应的推理示例代码与在线体验链接。

🙋魔搭ModelScope本期社区进展:
📟2246个模型:GLM-4.7-Flash、Qwen3-tts系列、Chroma-4B、Step3-VL-10B、LightOnOCR-2-1B等;
📁280个数据集:ShapeR-Evaluation、TeleVRSLU、OWL-SFT、OmniScience、ChemPileCap-clean、Video-R2-Dataset等;
🎨226个创新应用:Step3-VL-10B-Demo、Qwen3-TTS、HeartMuLa歌曲生成等;
📄 8篇内容:
-
环球黑客松·杭州站精彩回顾
-
Qwen3-TTS全面开源:支持超低延迟流式合成的多语言语音大模型
-
Qwen-Image 从推理到 LoRA 训练实战教程(AMD GPU × DiffSynth-Studio)
-
FlashLabs 正式发布 Chroma 1.0 - 全球首个开源、端到端、实时语音到语音 AI 模型 → 支持个性化语音克隆
-
10B击败200B!阶跃星辰10B视觉语言SOTA模型开源
-
小而强,GLM-4.7-Flash开源
-
从对话到Agent:大模型工具调用能力的量化评测
-
国内首个全国产化千亿参数细粒度 MoE:开源!
01
模型推荐
GLM-4.7-Flash
GLM-4.7-Flash是智谱最新发布的一个混合思考模型,总参数量为30B,激活参数量为3B,作为同级别SOTA模型,为轻量化部署提供了一个兼顾性能与效率的新选择。
在SWE-bench Verified、τ²-Bench等主流基准测试中,GLM-4.7-Flash的综合表现超过gpt-oss-20b、Qwen3-30B-A3B-Thinking-2507,在相同和近似尺寸模型系列中取得开源SOTA分数。

示例代码
使用 transformers :
pip install git+https://github.com/huggingface/transformers.git
然后运行:
import torchfrom modelscope import AutoModelForCausalLM, AutoTokenizerMODEL_PATH = "ZhipuAI/GLM-4.7-Flash"messages = [{"role": "user", "content": "hello"}]tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)inputs = tokenizer.apply_chat_template(messages,tokenize=True,add_generation_prompt=True,return_dict=True,return_tensors="pt",)model = AutoModelForCausalLM.from_pretrained(pretrained_model_name_or_path=MODEL_PATH,torch_dtype=torch.bfloat16,device_map="auto",)inputs = inputs.to(model.device)generated_ids = model.generate(**inputs, max_new_tokens=128, do_sample=False)output_text = tokenizer.decode(generated_ids[0][inputs.input_ids.shape[1]:])print(output_text)
Qwen3-TTS系列
Qwen3-TTS 是通义千问Qwen团队最新开源的系列高性能多语言文本到语音模型,支持10种语言(含中、英、日、韩等)及方言音色,专为全球应用设计。其核心特点包括:基于自研Qwen3-TTS-Tokenizer-12Hz的高效语音表征,保留副语言信息并实现高保真重建;采用离散多码本端到端架构,消除传统LM+DiT的信息瓶颈和级联误差,提升通用性与效率;支持极致低延迟流式生成,端到端延迟仅97ms,满足实时交互需求;通过深度融合文本语义理解,可自适应控制语调、语速、情感及音色,对噪声输入鲁棒,实现精准拟真输出。
Qwen3-TTS并非单一模型,而是一整套模型家族的统称,核心包含两种编码器路线:
|
特性 |
Qwen3-TTS-25Hz |
Qwen3-TTS-12Hz |
|
编码频率 |
25 Hz |
12.5 Hz |
|
编码器类型 |
单码本+DiT解码 |
多码本(16层)+轻量CNN |
|
优势 |
长文本稳定性强 |
超低延迟(97ms)、流式友好 |
|
适用场景 |
长文档合成、播客生成 |
实时对话、多轮交互 |
选择指南:追求极致低延迟能力选12Hz;长文本生成稳定性优先选25Hz,本次开源的是Qwen3-TTS-12Hz系列模型。
模型合集
https://modelscope.cn/collections/Qwen/Qwen3-TTS
示例代码
step1:环境准备
# 创建独立环境(推荐)conda create -n qwen3-tts python=3.12 -yconda activate qwen3-tts# 安装核心包pip install -U qwen-tts# 可选:加速推理(需兼容硬件)pip install -U flash-attn --no-build-isolation
step2:推理生成语言
import torchimport soundfile as sffrom qwen_tts import Qwen3TTSModel# 加载模型(自动下载,也可本地指定路径)model = Qwen3TTSModel.from_pretrained("Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice",device_map="cuda:0",dtype=torch.bfloat16,attn_implementation="flash_attention_2")# 生成!wavs, sr = model.generate_custom_voice(text="其实我真的有发现,我是一个特别善于观察别人情绪的人。",language="Chinese",speaker="Vivian",instruct="用特别愤怒的语气说")# 保存sf.write("output.wav", wavs[0], sr)
step3:Web界面(可选)
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --port 8000# 浏览器打开 http://localhost:8000
Chroma-4B
Chroma-4B 是由 FlashLabs开发的一款先进的多模态模型。该模型旨在理解并生成跨多种模态的内容,包括文本和音频。作为虚拟人模型,Chroma 能够处理听觉输入,并同时以文本和合成语音进行响应,从而实现自然的语音交互。
Chroma-4B 的发布标志着实时语音 AI 正式进入“开源 + 端到端 + 低延迟”的新阶段。它不仅适用于 AI 呼叫中心、语音客服、销售外呼、虚拟人、实时翻译 等场景,也为研究者提供了一个可复现、可扩展的基础模型。
模型链接
https://modelscope.cn/models/FlashLabs/Chroma-4B
示例代码
使用方法
-
安装
pip install transformers torch
-
加载模型
import torchfrom modelscope import AutoModelForCausalLM, AutoProcessormodel_id = "FlashLabs/Chroma-4B" # Or local path# Load modelmodel = AutoModelForCausalLM.from_pretrained(model_id,trust_remote_code=True,device_map="auto")# Load processorprocessor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True)
-
推理示例
import torchfrom IPython.display import Audio# Construct conversation historysystem_prompt = ("You are Chroma, an advanced virtual human created by the FlashLabs. ""You possess the ability to understand auditory inputs and generate both text and speech.")conversation = [[{"role": "system","content": [{"type": "text", "text": system_prompt}],},{"role": "user","content": [# Input audio file path{"type": "audio", "audio": "assets/make_taco.wav"},],},]]# Provide reference audio/text for style or contextprompt_text = ["War and bloodshed throughout the world."]prompt_audio = ["assets/reference_audio.wav"]# Process inputsinputs = processor(conversation,add_generation_prompt=True,tokenize=False,prompt_audio=prompt_audio,prompt_text=prompt_text)# Move inputs to devicedevice = model.deviceinputs = {k: v.to(device) for k, v in inputs.items()}# 2. Generateoutput = model.generate(**inputs,max_new_tokens=100,do_sample=True,temperature=0.7,top_p=0.9,use_cache=True)# 3. Decode Audio# The model outputs raw tokens; we decode the audio part using the codecaudio_values = model.codec_model.decode(output.permute(0, 2, 1)).audio_values# Save or play audio (e.g., in Jupyter)Audio(audio_values[0].cpu().detach().numpy(), rate=24_000)
更多模型评测效果,详见:
FlashLabs 正式发布 Chroma 1.0 - 全球首个开源、端到端、实时语音到语音 AI 模型 → 支持个性化语音克隆
Step3-VL-10B
STEP3-VL-10B 是阶跃星辰本周发布的一款轻量级开源基础模型,旨在重新定义紧凑高效与前沿多模态智能之间的权衡。尽管其参数规模仅为 10B,STEP3-VL-10B 在 视觉感知、复杂推理 和 以人为本的对齐 方面表现卓越。它持续超越所有 10B 以下规模的模型,甚至可与规模大得多(10–20 倍)的开源模型(如 GLM-4.6V (106B-A12B)、Qwen3-VL-Thinking (235B-A22B))以及顶级闭源旗舰模型(如 Gemini 2.5 Pro 和 Seed-1.5-VL)相媲美或超越。
模型链接
https://modelscope.cn/models/stepfun-ai/Step3-VL-10B
示例代码
使用transformer推理
from modelscope import AutoProcessor, AutoModelForCausalLMkey_mapping = {"^vision_model": "model.vision_model",r"^model(?!\.(language_model|vision_model))": "model.language_model","vit_large_projector": "model.vit_large_projector",}model_path = "stepfun-ai/Step3-VL-10B"processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)messages = [{"role": "user","content": [{"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},{"type": "text", "text": "What's in this picture?"}]},]model = AutoModelForCausalLM.from_pretrained(model_path,trust_remote_code=True,device_map="auto",torch_dtype="auto",key_mapping=key_mapping).eval()inputs = processor.apply_chat_template(messages, add_generation_prompt=True, tokenize=True,return_dict=True, return_tensors="pt").to(model.device)generate_ids = model.generate(**inputs, max_new_tokens=1024, do_sample=False)decoded = processor.decode(generate_ids[0, inputs["input_ids"].shape[-1] :], skip_special_tokens=True)print(decoded)
更多技术细节、模型评测效果,详见:
10B击败200B!阶跃星辰10B视觉语言SOTA模型开源
LightOnOCR-2-1B
LightOnOCR-2 是一个高效的端到端 10 亿参数视觉语言模型,用于将文档(PDF、扫描件、图像)转换为干净且自然顺序的文本,无需依赖脆弱的流水线。第二版在更大、更高质量的语料库上训练,增强了法语文档、arXiv 论文和扫描件的覆盖范围,改进了 LaTeX 处理能力,并实现了更干净的归一化。LightOnOCR-2 在 OlmOCR-Bench 上达到当前最优性能,同时模型体积比竞品小约 9 倍,推理速度显著更快。
模型在单H100 GPU上每秒处理5.71页(日处理量约49.3万页),每1000页成本低于$0.01;速度显著优于主流OCR方案,如比Chandra OCR快3.3倍、OlmOCR快1.7倍、dots.ocr快5倍、PaddleOCR-VL-0.9B快2倍、DeepSeekOCR快1.73倍;作为完全可微分的端到端系统,无需外部流水线;支持表格、收据、表单、多栏布局和数学符号的多功能解析,并集成图像边界框预测能力。
模型链接
https://www.modelscope.cn/models/lightonai/LightOnOCR-2-1B
示例代码
使用transformer,LightOnOCR-2 需要从源码安装 transformers(尚未包含在稳定版本中)
uv pip install git+https://github.com/huggingface/transformersuv pip install pillow pypdfium2
import torchfrom modelscope import LightOnOcrForConditionalGeneration, LightOnOcrProcessordevice = "mps" if torch.backends.mps.is_available() else "cuda" if torch.cuda.is_available() else "cpu"dtype = torch.float32 if device == "mps" else torch.bfloat16model = LightOnOcrForConditionalGeneration.from_pretrained("lightonai/LightOnOCR-2-1B-bbox", torch_dtype=dtype).to(device)processor = LightOnOcrProcessor.from_pretrained("lightonai/LightOnOCR-2-1B-bbox")url = "https://huggingface.co/datasets/hf-internal-testing/fixtures_ocr/resolve/main/SROIE-receipt.jpeg"conversation = [{"role": "user", "content": [{"type": "image", "url": url}]}]inputs = processor.apply_chat_template(conversation,add_generation_prompt=True,tokenize=True,return_dict=True,return_tensors="pt",)inputs = {k: v.to(device=device, dtype=dtype) if v.is_floating_point() else v.to(device) for k, v in inputs.items()}output_ids = model.generate(**inputs, max_new_tokens=1024)generated_ids = output_ids[0, inputs["input_ids"].shape[1]:]output_text = processor.decode(generated_ids, skip_special_tokens=True)print(output_text)
02
数据集推荐
ShapeR-Evaluation
ShapeR-Evaluation 是由 Facebook 发布的一个用于评估 3D 形状重建与生成模型性能的数据集,包含多种真实和合成的 3D 物体形状(如 ShapeNet 中的类别),提供多视角 RGB 图像、相机参数、点云、网格(mesh)等模态数据;其主要参数包括物体类别(如椅子、汽车等)、视角数量、分辨率(通常为 224×224 或更高)以及对应的 3D 标注;该数据集常用于评测新视角合成、3D 重建、神经辐射场(NeRF)、生成式 3D 模型等任务的准确性与泛化能力。
数据集链接
https://modelscope.cn/datasets/facebook/ShapeR-Evaluation
TeleVRSLU
TeleVRSLU 是由 TeleAI 发布的一个面向虚拟现实(VR)场景的中文语音语言理解(SLU)数据集,包含在 VR 环境中采集的用户语音指令及其对应的语义标注(如意图识别、槽位填充),涵盖导航、交互、控制等典型 VR 应用场景;数据集参数包括语音音频(采样率通常为 16kHz)、转录文本、意图类别(如“打开应用”“移动物体”)、结构化语义槽位(如目标对象、方向、距离)以及说话人和环境元信息;适用于训练和评估面向 VR 的端到端语音理解系统、多模态交互模型及低延迟 SLU 应用。
OWL-SFT
TOWL-Planner-SFT 是由 Camel AI 开发的一个基于 OWL-ViT 视觉语言模型微调得到的指令驱动视觉规划模型,专为具身智能(embodied AI)和机器人任务设计;该模型接收自然语言指令和当前环境图像作为输入,输出可执行的动作序列或目标位置(如“去厨房拿杯子” → 生成导航路径或抓取点);其核心参数包括基于 ViT-L/14 的视觉编码器、语言引导的目标检测头,以及在大规模仿真数据(如 ALFRED、VirtualHome)上进行监督微调(SFT)得到的策略模块;适用于家庭服务机器人、虚拟智能体的任务规划、视觉导航与人机协作等场景。
03
创空间
Step3-VL-10B-Demo
Step3-VL-10B 适用于需要图文联合理解的场景,如智能客服、教育辅助、内容审核、无障碍图像描述和多模态人机交互等。
体验链接:
https://modelscope.cn/studios/stepfun-ai/step3-vl-10b
Qwen3-TTS
Qwen3-TTS 是一款文本到语音合成模型,适用于智能语音助手、有声读物生成、语音播报、无障碍阅读等需要高质量语音输出的场景。
体验链接:
https://modelscope.cn/studios/Qwen/Qwen3-TTS
HeartMuLa歌曲生成
HeartMuLa 是一款基于 AI 的歌曲生成应用,用户可通过输入歌词或旋律提示,自动生成风格多样的音乐作品,适用于音乐创作辅助、短视频配乐、个性化铃声制作等场景。
体验链接:
04
社区精选文章

