本文是魔搭（ModelScope）社区 2026 年 1 月下旬的资源更新汇总。文章详细介绍了多款重磅开源模型：包括智谱 AI 的轻量化 SOTA 模型 GLM-4.7-Flash；通义千问团队支持超低延迟流式合成的 Qwen3-TTS 系列；FlashLabs 开发的全球首个开源端到端实时语音交互模型 Chroma-4B；以及阶跃星辰发布的以 10B 参数挑战千亿规模性能的视觉语言模型 Step3-VL-10B。此外，还涵盖了 LightOnOCR-2 高效文档解析模型，以及 ShapeR-Evaluation、TeleVRSLU 等 3D 重建与虚拟现实领域的专业数据集，并提供了相应的推理示例代码与在线体验链接。

魔搭社区模型速递（1.18-1.24）

🙋魔搭ModelScope本期社区进展：

📟2246个模型：GLM-4.7-Flash、Qwen3-tts系列、Chroma-4B、Step3-VL-10B、LightOnOCR-2-1B等；

📁280个数据集：ShapeR-Evaluation、TeleVRSLU、OWL-SFT、OmniScience、ChemPileCap-clean、Video-R2-Dataset等；

🎨226个创新应用：Step3-VL-10B-Demo、Qwen3-TTS、HeartMuLa歌曲生成等；

📄 8篇内容：

环球黑客松·杭州站精彩回顾
Qwen3-TTS全面开源：支持超低延迟流式合成的多语言语音大模型
Qwen-Image 从推理到 LoRA 训练实战教程（AMD GPU × DiffSynth-Studio）

FlashLabs 正式发布 Chroma 1.0 - 全球首个开源、端到端、实时语音到语音 AI 模型 → 支持个性化语音克隆
10B击败200B！阶跃星辰10B视觉语言SOTA模型开源
小而强，GLM-4.7-Flash开源
从对话到Agent：大模型工具调用能力的量化评测
国内首个全国产化千亿参数细粒度 MoE：开源！

01
模型推荐

GLM-4.7-Flash

GLM-4.7-Flash是智谱最新发布的一个混合思考模型，总参数量为30B，激活参数量为3B，作为同级别SOTA模型，为轻量化部署提供了一个兼顾性能与效率的新选择。

在SWE-bench Verified、τ²-Bench等主流基准测试中，GLM-4.7-Flash的综合表现超过gpt-oss-20b、Qwen3-30B-A3B-Thinking-2507，在相同和近似尺寸模型系列中取得开源SOTA分数。

模型链接

https://modelscope.cn/models/ZhipuAI/GLM-4.7-Flash

示例代码

使用 transformers ：

pip install git+https://github.com/huggingface/transformers.git

然后运行：

import torch
from modelscope import AutoModelForCausalLM, AutoTokenizer
MODEL_PATH = "ZhipuAI/GLM-4.7-Flash"
messages = [{"role": "user", "content": "hello"}]
tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
inputs = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt",
)
model = AutoModelForCausalLM.from_pretrained(
    pretrained_model_name_or_path=MODEL_PATH,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
inputs = inputs.to(model.device)
generated_ids = model.generate(**inputs, max_new_tokens=128, do_sample=False)
output_text = tokenizer.decode(generated_ids[0][inputs.input_ids.shape[1]:])
print(output_text)

Qwen3-TTS系列

Qwen3-TTS 是通义千问Qwen团队最新开源的系列高性能多语言文本到语音模型，支持10种语言（含中、英、日、韩等）及方言音色，专为全球应用设计。其核心特点包括：基于自研Qwen3-TTS-Tokenizer-12Hz的高效语音表征，保留副语言信息并实现高保真重建；采用离散多码本端到端架构，消除传统LM+DiT的信息瓶颈和级联误差，提升通用性与效率；支持极致低延迟流式生成，端到端延迟仅97ms，满足实时交互需求；通过深度融合文本语义理解，可自适应控制语调、语速、情感及音色，对噪声输入鲁棒，实现精准拟真输出。

Qwen3-TTS并非单一模型，而是一整套模型家族的统称，核心包含两种编码器路线：

特性	Qwen3-TTS-25Hz	Qwen3-TTS-12Hz
编码频率	25 Hz	12.5 Hz
编码器类型	单码本+DiT解码	多码本（16层）+轻量CNN
优势	长文本稳定性强	超低延迟（97ms）、流式友好
适用场景	长文档合成、播客生成	实时对话、多轮交互

选择指南：追求极致低延迟能力选12Hz；长文本生成稳定性优先选25Hz，本次开源的是Qwen3-TTS-12Hz系列模型。

模型合集

https://modelscope.cn/collections/Qwen/Qwen3-TTS

示例代码

step1：环境准备

# 创建独立环境（推荐）
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts
# 安装核心包
pip install -U qwen-tts
# 可选：加速推理（需兼容硬件）
pip install -U flash-attn --no-build-isolation

step2：推理生成语言

import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel
# 加载模型（自动下载，也可本地指定路径）
model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2"
)
# 生成！
wavs, sr = model.generate_custom_voice(
    text="其实我真的有发现，我是一个特别善于观察别人情绪的人。",
    language="Chinese",
    speaker="Vivian",
    instruct="用特别愤怒的语气说"
)
# 保存
sf.write("output.wav", wavs[0], sr)

step3：Web界面（可选）

qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --port 8000
# 浏览器打开 http://localhost:8000

Chroma-4B

Chroma-4B 是由 FlashLabs开发的一款先进的多模态模型。该模型旨在理解并生成跨多种模态的内容，包括文本和音频。作为虚拟人模型，Chroma 能够处理听觉输入，并同时以文本和合成语音进行响应，从而实现自然的语音交互。

Chroma-4B 的发布标志着实时语音 AI 正式进入“开源 + 端到端 + 低延迟”的新阶段。它不仅适用于 AI 呼叫中心、语音客服、销售外呼、虚拟人、实时翻译等场景，也为研究者提供了一个可复现、可扩展的基础模型。

模型链接

https://modelscope.cn/models/FlashLabs/Chroma-4B

示例代码

使用方法

安装

pip install transformers torch

加载模型

import torch
from modelscope import AutoModelForCausalLM, AutoProcessor
model_id = "FlashLabs/Chroma-4B" # Or local path
# Load model
model = AutoModelForCausalLM.from_pretrained(
    model_id, 
    trust_remote_code=True, 
    device_map="auto"
)
# Load processor
processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True)

推理示例

import torch
from IPython.display import Audio
# Construct conversation history
system_prompt = (
    "You are Chroma, an advanced virtual human created by the FlashLabs. "
    "You possess the ability to understand auditory inputs and generate both text and speech."
)
conversation = [[
    {
        "role": "system",
        "content": [
            {"type": "text", "text": system_prompt}
        ],
    },
    {
        "role": "user",
        "content": [
            # Input audio file path
            {"type": "audio", "audio": "assets/make_taco.wav"}, 
        ],
    },
]]
# Provide reference audio/text for style or context
prompt_text = ["War and bloodshed throughout the world."]
prompt_audio = ["assets/reference_audio.wav"]
# Process inputs
inputs = processor(
    conversation,
    add_generation_prompt=True, 
    tokenize=False,
    prompt_audio=prompt_audio,
    prompt_text=prompt_text
)
# Move inputs to device
device = model.device
inputs = {k: v.to(device) for k, v in inputs.items()}
# 2. Generate
output = model.generate(
    **inputs, 
    max_new_tokens=100, 
    do_sample=True,
    temperature=0.7,
    top_p=0.9,
    use_cache=True
)
# 3. Decode Audio
# The model outputs raw tokens; we decode the audio part using the codec
audio_values = model.codec_model.decode(output.permute(0, 2, 1)).audio_values
# Save or play audio (e.g., in Jupyter)
Audio(audio_values[0].cpu().detach().numpy(), rate=24_000)

更多模型评测效果，详见：

FlashLabs 正式发布 Chroma 1.0 - 全球首个开源、端到端、实时语音到语音 AI 模型 → 支持个性化语音克隆

Step3-VL-10B

STEP3-VL-10B 是阶跃星辰本周发布的一款轻量级开源基础模型，旨在重新定义紧凑高效与前沿多模态智能之间的权衡。尽管其参数规模仅为 10B，STEP3-VL-10B 在 视觉感知、复杂推理 和 以人为本的对齐 方面表现卓越。它持续超越所有 10B 以下规模的模型，甚至可与规模大得多（10–20 倍）的开源模型（如 GLM-4.6V (106B-A12B)、Qwen3-VL-Thinking (235B-A22B)）以及顶级闭源旗舰模型（如 Gemini 2.5 Pro 和 Seed-1.5-VL）相媲美或超越。

模型链接

https://modelscope.cn/models/stepfun-ai/Step3-VL-10B

示例代码

使用transformer推理

from modelscope import AutoProcessor, AutoModelForCausalLM
key_mapping = {
    "^vision_model": "model.vision_model",
    r"^model(?!\.(language_model|vision_model))": "model.language_model",
    "vit_large_projector": "model.vit_large_projector",
}
model_path = "stepfun-ai/Step3-VL-10B"
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
            {"type": "text", "text": "What's in this picture?"}
        ]
    },
]
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    trust_remote_code=True,
    device_map="auto",
    torch_dtype="auto",
    key_mapping=key_mapping).eval()
inputs = processor.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=True,
    return_dict=True, return_tensors="pt"
).to(model.device)
generate_ids = model.generate(**inputs, max_new_tokens=1024, do_sample=False)
decoded = processor.decode(generate_ids[0, inputs["input_ids"].shape[-1] :], skip_special_tokens=True)
print(decoded)

更多技术细节、模型评测效果，详见：

10B击败200B！阶跃星辰10B视觉语言SOTA模型开源

LightOnOCR-2-1B

LightOnOCR-2 是一个高效的端到端 10 亿参数视觉语言模型，用于将文档（PDF、扫描件、图像）转换为干净且自然顺序的文本，无需依赖脆弱的流水线。第二版在更大、更高质量的语料库上训练，增强了法语文档、arXiv 论文和扫描件的覆盖范围，改进了 LaTeX 处理能力，并实现了更干净的归一化。LightOnOCR-2 在 OlmOCR-Bench 上达到当前最优性能，同时模型体积比竞品小约 9 倍，推理速度显著更快。

模型在单H100 GPU上每秒处理5.71页（日处理量约49.3万页），每1000页成本低于$0.01；速度显著优于主流OCR方案，如比Chandra OCR快3.3倍、OlmOCR快1.7倍、dots.ocr快5倍、PaddleOCR-VL-0.9B快2倍、DeepSeekOCR快1.73倍；作为完全可微分的端到端系统，无需外部流水线；支持表格、收据、表单、多栏布局和数学符号的多功能解析，并集成图像边界框预测能力。

模型链接

https://www.modelscope.cn/models/lightonai/LightOnOCR-2-1B

示例代码

使用transformer，LightOnOCR-2 需要从源码安装 transformers（尚未包含在稳定版本中）

uv pip install git+https://github.com/huggingface/transformers
uv pip install pillow pypdfium2

import torch
from modelscope import LightOnOcrForConditionalGeneration, LightOnOcrProcessor


device = "mps" if torch.backends.mps.is_available() else "cuda" if torch.cuda.is_available() else "cpu"
dtype = torch.float32 if device == "mps" else torch.bfloat16


model = LightOnOcrForConditionalGeneration.from_pretrained("lightonai/LightOnOCR-2-1B-bbox", torch_dtype=dtype).to(device)
processor = LightOnOcrProcessor.from_pretrained("lightonai/LightOnOCR-2-1B-bbox")


url = "https://huggingface.co/datasets/hf-internal-testing/fixtures_ocr/resolve/main/SROIE-receipt.jpeg"


conversation = [{"role": "user", "content": [{"type": "image", "url": url}]}]


inputs = processor.apply_chat_template(
    conversation,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
)
inputs = {k: v.to(device=device, dtype=dtype) if v.is_floating_point() else v.to(device) for k, v in inputs.items()}


output_ids = model.generate(**inputs, max_new_tokens=1024)
generated_ids = output_ids[0, inputs["input_ids"].shape[1]:]
output_text = processor.decode(generated_ids, skip_special_tokens=True)
print(output_text)

02
数据集推荐

ShapeR-Evaluation

ShapeR-Evaluation 是由 Facebook 发布的一个用于评估 3D 形状重建与生成模型性能的数据集，包含多种真实和合成的 3D 物体形状（如 ShapeNet 中的类别），提供多视角 RGB 图像、相机参数、点云、网格（mesh）等模态数据；其主要参数包括物体类别（如椅子、汽车等）、视角数量、分辨率（通常为 224×224 或更高）以及对应的 3D 标注；该数据集常用于评测新视角合成、3D 重建、神经辐射场（NeRF）、生成式 3D 模型等任务的准确性与泛化能力。

数据集链接

https://modelscope.cn/datasets/facebook/ShapeR-Evaluation

TeleVRSLU

TeleVRSLU 是由 TeleAI 发布的一个面向虚拟现实（VR）场景的中文语音语言理解（SLU）数据集，包含在 VR 环境中采集的用户语音指令及其对应的语义标注（如意图识别、槽位填充），涵盖导航、交互、控制等典型 VR 应用场景；数据集参数包括语音音频（采样率通常为 16kHz）、转录文本、意图类别（如“打开应用”“移动物体”）、结构化语义槽位（如目标对象、方向、距离）以及说话人和环境元信息；适用于训练和评估面向 VR 的端到端语音理解系统、多模态交互模型及低延迟 SLU 应用。

数据集链接

https://modelscope.cn/datasets/TeleAI/TeleVRSLU

OWL-SFT

TOWL-Planner-SFT 是由 Camel AI 开发的一个基于 OWL-ViT 视觉语言模型微调得到的指令驱动视觉规划模型，专为具身智能（embodied AI）和机器人任务设计；该模型接收自然语言指令和当前环境图像作为输入，输出可执行的动作序列或目标位置（如“去厨房拿杯子” → 生成导航路径或抓取点）；其核心参数包括基于 ViT-L/14 的视觉编码器、语言引导的目标检测头，以及在大规模仿真数据（如 ALFRED、VirtualHome）上进行监督微调（SFT）得到的策略模块；适用于家庭服务机器人、虚拟智能体的任务规划、视觉导航与人机协作等场景。

数据集链接

https://modelscope.cn/models/camel-ai/OWL-Planner-SFT

03
创空间

Step3-VL-10B-Demo

Step3-VL-10B 适用于需要图文联合理解的场景，如智能客服、教育辅助、内容审核、无障碍图像描述和多模态人机交互等。

体验链接：

https://modelscope.cn/studios/stepfun-ai/step3-vl-10b

Qwen3-TTS

Qwen3-TTS 是一款文本到语音合成模型，适用于智能语音助手、有声读物生成、语音播报、无障碍阅读等需要高质量语音输出的场景。

体验链接：

https://modelscope.cn/studios/Qwen/Qwen3-TTS

HeartMuLa歌曲生成

HeartMuLa 是一款基于 AI 的歌曲生成应用，用户可通过输入歌词或旋律提示，自动生成风格多样的音乐作品，适用于音乐创作辅助、短视频配乐、个性化铃声制作等场景。

体验链接：

https://modelscope.cn/studios/gswyhq/HeartMuLa

04
社区精选文章
环球黑客松·杭州站精彩回顾
Qwen3-TTS全面开源：支持超低延迟流式合成的多语言语音大模型
Qwen-Image 从推理到 LoRA 训练实战教程（AMD GPU × DiffSynth-Studio）
FlashLabs 正式发布 Chroma 1.0 - 全球首个开源、端到端、实时语音到语音 AI 模型 → 支持个性化语音克隆
10B击败200B！阶跃星辰10B视觉语言SOTA模型开源
小而强，GLM-4.7-Flash开源
从对话到Agent：大模型工具调用能力的量化评测
国内首个全国产化千亿参数细粒度 MoE：开源！

{{userData.name}}已认证

魔搭社区模型速递（1.18-1.24）

01
模型推荐

step1：环境准备

FlashLabs 正式发布 Chroma 1.0 - 全球首个开源、端到端、实时语音到语音 AI 模型 → 支持个性化语音克隆

10B击败200B！阶跃星辰10B视觉语言SOTA模型开源

02
数据集推荐

03
创空间

04
社区精选文章

Clawdbot 爆火：Karpathy 点赞的开源 AI 助理，到底是什么？

Rella 创始人：打造百万级流量的内容策略丨 Natalie Barbu

在 GitHub Actions 中利用 GitHub 模型实现项目自动化

驾驭多巴胺：从欲望囚徒到成长主人的破局指南

3D 打印机、无人机、运动相机，成了“吃灰三件套”

谈谈 AI 编程时代的「道法术」

LangChain 聊天机器人重建之路及经验

编程门槛被压到 799 美元？“那个拿着 Mac Mini+Claude 的「门外汉」，抢走了程序员 3 个月的活！”

{{userData.name}}已认证

01模型推荐

step1：环境准备

FlashLabs 正式发布 Chroma 1.0 - 全球首个开源、端到端、实时语音到语音 AI 模型 → 支持个性化语音克隆

10B击败200B！阶跃星辰10B视觉语言SOTA模型开源

02数据集推荐

03创空间

04社区精选文章

Clawdbot 爆火：Karpathy 点赞的开源 AI 助理，到底是什么？

Rella 创始人：打造百万级流量的内容策略丨 Natalie Barbu

01
模型推荐

02
数据集推荐

03
创空间

04
社区精选文章