魔搭社区模型速递(1.18-1.24)

本文是魔搭(ModelScope)社区 2026 年 1 月下旬的资源更新汇总。文章详细介绍了多款重磅开源模型:包括智谱 AI 的轻量化 SOTA 模型 GLM-4.7-Flash;通义千问团队支持超低延迟流式合成的 Qwen3-TTS 系列;FlashLabs 开发的全球首个开源端到端实时语音交互模型 Chroma-4B;以及阶跃星辰发布的以 10B 参数挑战千亿规模性能的视觉语言模型 Step3-VL-10B。此外,还涵盖了 LightOnOCR-2 高效文档解析模型,以及 ShapeR-Evaluation、TeleVRSLU 等 3D 重建与虚拟现实领域的专业数据集,并提供了相应的推理示例代码与在线体验链接。




魔搭社区模型速递(1.18-1.24)

🙋魔搭ModelScope本期社区进展:

📟2246个模型:GLM-4.7-Flash、Qwen3-tts系列、Chroma-4B、Step3-VL-10B、LightOnOCR-2-1B

📁280个数据集:ShapeR-Evaluation、TeleVRSLU、OWL-SFT、OmniScience、ChemPileCap-clean、Video-R2-Dataset等;

🎨226个创新应用Step3-VL-10B-Demo、Qwen3-TTS、HeartMuLa歌曲生成

📄 8篇内容:

                  • 环球黑客松·杭州站精彩回顾

                  • Qwen3-TTS全面开源:支持超低延迟流式合成的多语言语音大模型

                  • Qwen-Image 从推理到 LoRA 训练实战教程(AMD GPU × DiffSynth-Studio)

                  • FlashLabs 正式发布 Chroma 1.0 - 全球首个开源、端到端、实时语音到语音 AI 模型 → 支持个性化语音克隆

                  • 10B击败200B!阶跃星辰10B视觉语言SOTA模型开源

                  • 小而强,GLM-4.7-Flash开源

                  • 从对话到Agent:大模型工具调用能力的量化评测

                  • 国内首个全国产化千亿参数细粒度 MoE:开源!

                  01

                  模型推荐

                  GLM-4.7-Flash

                  GLM-4.7-Flash是智谱最新发布的一个混合思考模型,总参数量为30B,激活参数量为3B,作为同级别SOTA模型,为轻量化部署提供了一个兼顾性能与效率的新选择。

                  在SWE-bench Verified、τ²-Bench等主流基准测试中,GLM-4.7-Flash的综合表现超过gpt-oss-20b、Qwen3-30B-A3B-Thinking-2507,在相同和近似尺寸模型系列中取得开源SOTA分数。

                  图片

                  示例代码

                  使用 transformers :

                    pip install git+https://github.com/huggingface/transformers.git

                    然后运行:

                      import torch
                      from modelscope import AutoModelForCausalLM, AutoTokenizer
                      MODEL_PATH = "ZhipuAI/GLM-4.7-Flash"
                      messages = [{"role""user""content""hello"}]
                      tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
                      inputs = tokenizer.apply_chat_template(
                          messages,
                          tokenize=True,
                          add_generation_prompt=True,
                          return_dict=True,
                          return_tensors="pt",
                      )
                      model = AutoModelForCausalLM.from_pretrained(
                          pretrained_model_name_or_path=MODEL_PATH,
                          torch_dtype=torch.bfloat16,
                          device_map="auto",
                      )
                      inputs = inputs.to(model.device)
                      generated_ids = model.generate(**inputs, max_new_tokens=128, do_sample=False)
                      output_text = tokenizer.decode(generated_ids[0][inputs.input_ids.shape[1]:])
                      print(output_text)

                      Qwen3-TTS系列

                      Qwen3-TTS 是通义千问Qwen团队最新开源的系列高性能多语言文本到语音模型,支持10种语言(含中、英、日、韩等)及方言音色,专为全球应用设计。其核心特点包括:基于自研Qwen3-TTS-Tokenizer-12Hz的高效语音表征,保留副语言信息并实现高保真重建;采用离散多码本端到端架构,消除传统LM+DiT的信息瓶颈和级联误差,提升通用性与效率;支持极致低延迟流式生成,端到端延迟仅97ms,满足实时交互需求;通过深度融合文本语义理解,可自适应控制语调、语速、情感及音色,对噪声输入鲁棒,实现精准拟真输出。

                      Qwen3-TTS并非单一模型,而是一整套模型家族的统称,核心包含两种编码器路线

                      特性

                      Qwen3-TTS-25Hz

                      Qwen3-TTS-12Hz

                      编码频率

                      25 Hz

                      12.5 Hz

                      编码器类型

                      单码本+DiT解码

                      多码本(16层)+轻量CNN

                      优势

                      长文本稳定性强

                      超低延迟(97ms)、流式友好

                      适用场景

                      长文档合成、播客生成

                      实时对话、多轮交互

                      选择指南:追求极致低延迟能力选12Hz;长文本生成稳定性优先选25Hz,本次开源的是Qwen3-TTS-12Hz系列模型。

                      模型合集

                      https://modelscope.cn/collections/Qwen/Qwen3-TTS

                      示例代码

                      step1:环境准备

                        # 创建独立环境(推荐)
                        conda create -n qwen3-tts python=3.12 -y
                        conda activate qwen3-tts
                        # 安装核心包
                        pip install -U qwen-tts
                        # 可选:加速推理(需兼容硬件)
                        pip install -U flash-attn --no-build-isolation
                        step2:推理生成语言

                        import torch
                        import soundfile as sf
                        from qwen_tts import Qwen3TTSModel
                        # 加载模型(自动下载,也可本地指定路径)
                        model = Qwen3TTSModel.from_pretrained(
                            "Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice",
                            device_map="cuda:0",
                            dtype=torch.bfloat16,
                            attn_implementation="flash_attention_2"
                        )
                        # 生成!
                        wavs, sr = model.generate_custom_voice(
                            text="其实我真的有发现,我是一个特别善于观察别人情绪的人。",
                            language="Chinese",
                            speaker="Vivian",
                            instruct="用特别愤怒的语气说"
                        )
                        # 保存
                        sf.write("output.wav", wavs[0], sr)
                        step3:Web界面(可选)

                        qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --port 8000
                        # 浏览器打开 http://localhost:8000

                        Chroma-4B

                        Chroma-4B 是由 FlashLabs开发的一款先进的多模态模型。该模型旨在理解并生成跨多种模态的内容,包括文本和音频。作为虚拟人模型,Chroma 能够处理听觉输入,并同时以文本和合成语音进行响应,从而实现自然的语音交互。

                        Chroma-4B 的发布标志着实时语音 AI 正式进入“开源 + 端到端 + 低延迟”的新阶段。它不仅适用于 AI 呼叫中心、语音客服、销售外呼、虚拟人、实时翻译 等场景,也为研究者提供了一个可复现、可扩展的基础模型。

                        模型链接

                        https://modelscope.cn/models/FlashLabs/Chroma-4B

                        示例代码

                        使用方法

                        • 安装

                          pip install transformers torch

                          • 加载模型

                            import torch
                            from modelscope import AutoModelForCausalLM, AutoProcessor
                            model_id = "FlashLabs/Chroma-4B" # Or local path
                            # Load model
                            model = AutoModelForCausalLM.from_pretrained(
                                model_id, 
                                trust_remote_code=True
                                device_map="auto"
                            )
                            # Load processor
                            processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True)

                            • 推理示例

                              import torch
                              from IPython.display import Audio
                              # Construct conversation history
                              system_prompt = (
                                  "You are Chroma, an advanced virtual human created by the FlashLabs. "
                                  "You possess the ability to understand auditory inputs and generate both text and speech."
                              )
                              conversation = [[
                                  {
                                      "role""system",
                                      "content": [
                                          {"type""text""text": system_prompt}
                                      ],
                                  },
                                  {
                                      "role""user",
                                      "content": [
                                          # Input audio file path
                                          {"type""audio""audio""assets/make_taco.wav"}, 
                                      ],
                                  },
                              ]]
                              # Provide reference audio/text for style or context
                              prompt_text = ["War and bloodshed throughout the world."]
                              prompt_audio = ["assets/reference_audio.wav"]
                              # Process inputs
                              inputs = processor(
                                  conversation,
                                  add_generation_prompt=True, 
                                  tokenize=False,
                                  prompt_audio=prompt_audio,
                                  prompt_text=prompt_text
                              )
                              # Move inputs to device
                              device = model.device
                              inputs = {k: v.to(device) for k, v in inputs.items()}
                              # 2. Generate
                              output = model.generate(
                                  **inputs, 
                                  max_new_tokens=100, 
                                  do_sample=True,
                                  temperature=0.7,
                                  top_p=0.9,
                                  use_cache=True
                              )
                              # 3. Decode Audio
                              # The model outputs raw tokens; we decode the audio part using the codec
                              audio_values = model.codec_model.decode(output.permute(0, 2, 1)).audio_values
                              # Save or play audio (e.g., in Jupyter)
                              Audio(audio_values[0].cpu().detach().numpy(), rate=24_000)

                              更多模型评测效果,详见:

                              FlashLabs 正式发布 Chroma 1.0 - 全球首个开源、端到端、实时语音到语音 AI 模型 → 支持个性化语音克隆

                              Step3-VL-10B

                              STEP3-VL-10B 是阶跃星辰本周发布的一款轻量级开源基础模型,旨在重新定义紧凑高效与前沿多模态智能之间的权衡。尽管其参数规模仅为 10B,STEP3-VL-10B 在 视觉感知复杂推理 和 以人为本的对齐 方面表现卓越。它持续超越所有 10B 以下规模的模型,甚至可与规模大得多(10–20 倍)的开源模型(如 GLM-4.6V (106B-A12B)、Qwen3-VL-Thinking (235B-A22B))以及顶级闭源旗舰模型(如 Gemini 2.5 Pro 和 Seed-1.5-VL)相媲美或超越。

                              模型链接

                              https://modelscope.cn/models/stepfun-ai/Step3-VL-10B

                              示例代码

                              使用transformer推理

                                from modelscope import AutoProcessor, AutoModelForCausalLM
                                key_mapping = {
                                    "^vision_model""model.vision_model",
                                    r"^model(?!\.(language_model|vision_model))""model.language_model",
                                    "vit_large_projector""model.vit_large_projector",
                                }
                                model_path = "stepfun-ai/Step3-VL-10B"
                                processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
                                messages = [
                                    {
                                        "role""user",
                                        "content": [
                                            {"type""image""url""https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
                                            {"type""text""text""What's in this picture?"}
                                        ]
                                    },
                                ]
                                model = AutoModelForCausalLM.from_pretrained(
                                    model_path,
                                    trust_remote_code=True,
                                    device_map="auto",
                                    torch_dtype="auto",
                                    key_mapping=key_mapping).eval()
                                inputs = processor.apply_chat_template(
                                    messages, add_generation_prompt=True, tokenize=True,
                                    return_dict=True, return_tensors="pt"
                                ).to(model.device)
                                generate_ids = model.generate(**inputs, max_new_tokens=1024, do_sample=False)
                                decoded = processor.decode(generate_ids[0, inputs["input_ids"].shape[-1] :], skip_special_tokens=True)
                                print(decoded)

                                更多技术细节、模型评测效果,详见:

                                10B击败200B!阶跃星辰10B视觉语言SOTA模型开源

                                LightOnOCR-2-1B

                                LightOnOCR-2 是一个高效的端到端 10 亿参数视觉语言模型,用于将文档(PDF、扫描件、图像)转换为干净且自然顺序的文本,无需依赖脆弱的流水线。第二版在更大、更高质量的语料库上训练,增强了法语文档、arXiv 论文和扫描件的覆盖范围,改进了 LaTeX 处理能力,并实现了更干净的归一化。LightOnOCR-2 在 OlmOCR-Bench 上达到当前最优性能,同时模型体积比竞品小约 9 倍,推理速度显著更快。

                                模型在单H100 GPU上每秒处理5.71页(日处理量约49.3万页),每1000页成本低于$0.01;速度显著优于主流OCR方案,如比Chandra OCR快3.3倍、OlmOCR快1.7倍、dots.ocr快5倍、PaddleOCR-VL-0.9B快2倍、DeepSeekOCR快1.73倍;作为完全可微分的端到端系统,无需外部流水线;支持表格、收据、表单、多栏布局和数学符号的多功能解析,并集成图像边界框预测能力。

                                模型链接

                                https://www.modelscope.cn/models/lightonai/LightOnOCR-2-1B

                                示例代码

                                使用transformer,LightOnOCR-2 需要从源码安装 transformers(尚未包含在稳定版本中)

                                  uv pip install git+https://github.com/huggingface/transformers
                                  uv pip install pillow pypdfium2

                                    import torch
                                    from modelscope import LightOnOcrForConditionalGeneration, LightOnOcrProcessor


                                    device = "mps" if torch.backends.mps.is_available() else "cuda" if torch.cuda.is_available() else "cpu"
                                    dtype = torch.float32 if device == "mps" else torch.bfloat16


                                    model = LightOnOcrForConditionalGeneration.from_pretrained("lightonai/LightOnOCR-2-1B-bbox", torch_dtype=dtype).to(device)
                                    processor = LightOnOcrProcessor.from_pretrained("lightonai/LightOnOCR-2-1B-bbox")


                                    url = "https://huggingface.co/datasets/hf-internal-testing/fixtures_ocr/resolve/main/SROIE-receipt.jpeg"


                                    conversation = [{"role""user""content": [{"type""image""url": url}]}]


                                    inputs = processor.apply_chat_template(
                                        conversation,
                                        add_generation_prompt=True,
                                        tokenize=True,
                                        return_dict=True,
                                        return_tensors="pt",
                                    )
                                    inputs = {k: v.to(device=device, dtype=dtype) if v.is_floating_point() else v.to(device) for k, v in inputs.items()}


                                    output_ids = model.generate(**inputs, max_new_tokens=1024)
                                    generated_ids = output_ids[0, inputs["input_ids"].shape[1]:]
                                    output_text = processor.decode(generated_ids, skip_special_tokens=True)
                                    print(output_text)

                                    02

                                    数据集推荐

                                    ShapeR-Evaluation

                                    ShapeR-Evaluation 是由 Facebook 发布的一个用于评估 3D 形状重建与生成模型性能的数据集,包含多种真实和合成的 3D 物体形状(如 ShapeNet 中的类别),提供多视角 RGB 图像、相机参数、点云、网格(mesh)等模态数据;其主要参数包括物体类别(如椅子、汽车等)、视角数量、分辨率(通常为 224×224 或更高)以及对应的 3D 标注;该数据集常用于评测新视角合成、3D 重建、神经辐射场(NeRF)、生成式 3D 模型等任务的准确性与泛化能力。

                                    数据集链接

                                    https://modelscope.cn/datasets/facebook/ShapeR-Evaluation

                                    TeleVRSLU

                                    TeleVRSLU 是由 TeleAI 发布的一个面向虚拟现实(VR)场景的中文语音语言理解(SLU)数据集,包含在 VR 环境中采集的用户语音指令及其对应的语义标注(如意图识别、槽位填充),涵盖导航、交互、控制等典型 VR 应用场景;数据集参数包括语音音频(采样率通常为 16kHz)、转录文本、意图类别(如“打开应用”“移动物体”)、结构化语义槽位(如目标对象、方向、距离)以及说话人和环境元信息;适用于训练和评估面向 VR 的端到端语音理解系统、多模态交互模型及低延迟 SLU 应用。

                                    OWL-SFT

                                    TOWL-Planner-SFT 是由 Camel AI 开发的一个基于 OWL-ViT 视觉语言模型微调得到的指令驱动视觉规划模型,专为具身智能(embodied AI)和机器人任务设计;该模型接收自然语言指令和当前环境图像作为输入,输出可执行的动作序列或目标位置(如“去厨房拿杯子” → 生成导航路径或抓取点);其核心参数包括基于 ViT-L/14 的视觉编码器、语言引导的目标检测头,以及在大规模仿真数据(如 ALFRED、VirtualHome)上进行监督微调(SFT)得到的策略模块;适用于家庭服务机器人、虚拟智能体的任务规划、视觉导航与人机协作等场景。

                                    03

                                    创空间

                                    Step3-VL-10B-Demo

                                    Step3-VL-10B 适用于需要图文联合理解的场景,如智能客服、教育辅助、内容审核、无障碍图像描述和多模态人机交互等。

                                    体验链接:

                                    https://modelscope.cn/studios/stepfun-ai/step3-vl-10b

                                    Qwen3-TTS

                                    Qwen3-TTS 是一款文本到语音合成模型,适用于智能语音助手、有声读物生成、语音播报、无障碍阅读等需要高质量语音输出的场景。

                                    体验链接:

                                    https://modelscope.cn/studios/Qwen/Qwen3-TTS

                                    HeartMuLa歌曲生成

                                    HeartMuLa 是一款基于 AI 的歌曲生成应用,用户可通过输入歌词或旋律提示,自动生成风格多样的音乐作品,适用于音乐创作辅助、短视频配乐、个性化铃声制作等场景。




                                    体验链接:

                                    https://modelscope.cn/studios/gswyhq/HeartMuLa

                                    04

                                    社区精选文章


                                    AI 前线

                                    Clawdbot 爆火:Karpathy 点赞的开源 AI 助理,到底是什么?

                                    2026-1-31 22:53:10

                                    AI 前线

                                    Rella 创始人:打造百万级流量的内容策略丨 Natalie Barbu

                                    2026-1-31 22:53:18

                                    0 条回复 A文章作者 M管理员
                                      暂无讨论,说说你的看法吧
                                    个人中心
                                    购物车
                                    优惠劵
                                    今日签到
                                    有新私信 私信列表
                                    搜索