两个事奥~

本文介绍了通义千问的两项重大更新:一是开源了 Qwen3-TTS 全家桶,包含 1.7B 和 0.6B 两个版本,支持 3 秒音色克隆、自然语言控制音色及 10 种语言合成,端到端延迟低至 97ms。二是上线了 Qwen3-Max-Thinking 大模型,该模型通过自适应工具调用和测试时扩展技术(TTS),在复杂推理、事实知识等维度表现卓越,多项基准测试成绩媲美 GPT-5.2 等顶尖模型,并已通过 API 和 Qwen Chat 开放使用。




两个事奥~

Qwen3-TTS全家桶开源

你的声音,你做主!

通义千问正式开源 Qwen3-TTS 全系列语音合成模型,全面支持音色克隆音色创造超高质量拟人化语音生成,以及基于自然语言描述语音控制,为你提供最全面的语音生成功能。本次开源了两个版本:1.7B (极致性能)0.6B(轻量高效),满足从云端到边缘的多样化部署需求。

Qwen3-TTS 核心亮点

✅ 3秒克隆你的声音

 自然语言描述你想要的音色(比如“暴躁川普大叔”或“撒娇萝莉音”)

✅ 端到端合成延迟低至 97ms

✅ 10种语言(中、英、日、韩、德、法、俄、葡萄牙、西班牙、意大利)+ 9个精品音色

✅ 拼音、数学公式、表情符号都能读

音色控制

指令控制

性别: 女性声音;

音高: 女性中高音区,语调富于变化;

语速: 语速明快,偶有加速;

音量: 正常交谈音量,笑声响亮;

清晰度: 吐字清晰,发音标准;

流畅度: 表达流畅自如;

口音: 普通话;

音色质感: 音色明亮,略带爽朗;

情绪: 愉悦友好,伴随爽朗笑意;

语调: 语调上扬活泼,疑问时尤为明显;

性格: 外向开朗,热情健谈。

指令控制:以极度悲伤、带着明显哭腔的语气,用较小的音量缓缓诉说,语速缓慢,仿佛每一个字都承载着沉重的痛楚,声音颤抖而压抑,吐字虽轻却清晰可辨,透出深藏心底的哀伤与无助。

指令控制:保持青年女性的声线特征,展现出一种清亮且略具紧迫感的音色,语速从平稳开始在叙述过程中逐渐加快,音量在情绪波动时增加,语调在句末调高以强调劝告的语气。

音色创造

指令控制:采用高亢的男性嗓音,语调随兴奋情绪不断上扬,以快速而充满活力的节奏传达信息。音量要足够响亮,近乎喊叫,以体现紧迫感。发音务必清晰精准、字字分明,让每个词都铿锵有力。整体表达需流畅自然、明亮生动,富有戏剧性,展现出外向、自信且张扬的个性,同时传递出一种威严而宏大的宣告语气,洋溢着满溢的激动之情。

音色克隆

多样音色与精准控制背后,是 Qwen3-TTS 一系列坚实的技术支撑。

  • 自研 Qwen3-TTS-Tokenizer-12Hz,它能对声音进行高效编码,完整保留情感、气息等细节,并实现高保真还原,这是音色高相似度与丰富表现力的基础。

  • 通用的端到端架构,它简化了从文本到语音的生成路径,规避了传统方案的信息损失,从而提升了整体生成效率与效果上限。

  • 创新 Dual-Track 流式生成架构,它实现了边输入边播放的实时体验,端到端延迟低至 97ms,让交互如对话般自然流畅。

  • 深度语义理解与指令控制能力使模型不仅能读懂文字,更能理解情感与意图,从而通过自然语言指令灵活调控音色、语调与节奏,实现“所想即所听”。

综合多项评测,Qwen3-TTS 在音色创造、音色控制与音色克隆任务上均展现出领先的性能。其表现整体超越对应闭源模型,并在跨语种克隆等任务上达到当前最优水准。

两个事奥~

GitHub:https://github.com/QwenLM/Qwen3-TTS

API:https://help.aliyun.com/zh/model-studio/qwen-tts-realtime

Qwen3-Max(Thinking)上线

更会“思考”的大模型来了!

去年9月份,我们发布了 Qwen3-Max-Preview。今天,我们正式推出 Qwen3-Max-Thinking

通过大幅增加模型规模并强化训练,它在事实知识复杂推理指令遵循人类偏好对齐以及智能体能力五大维度全面跃升,在 19 项权威基准测试中,其性能已可媲美当前顶尖大模型,如 GPT-5.2-Thinking-xhigh、Claude Opus 4.5 和 Gemini 3 Pro。

更重要的是,Qwen3-Max-Thinking 引入了两大核心创新

1、自适应工具调用能力:在对话中过程中 Qwen3-Max-Thinking 能根据用户需求,智能判断何时调用搜索引擎或代码解释器,自动为你获取实时信息、执行计算或调取历史上下文。这一能力已在 Qwen Chat 上线,欢迎体验。

2、测试时扩展技术TTS我们提出一种经验累积式、多轮迭代的推理策略。模型在推理过程中不断从自身过往步骤中提炼关键洞见,避免重复推导,聚焦未解问题。

在相同 token 消耗下,该技术显著提升推理质量。面对越难的问题,Qwen3-Max-Thinking 越能“沉住气”,通过自我反思一步步逼近正确答案。

以下是 Qwen3-Max-Thinking(with TTS),在多项权威基准上的表现对比:

  • GPQA Diamond:87.4 → 92.8

  • IMO-AnswerBench:83.9 → 91.5

  • LiveCodeBench v6:85.9 → 91.4

  • Humanity's Last Exam:49.8 → 58.3(工具调用场景下的绝对领先)

两个事奥~

目前,Qwen3-Max-Thinking 已上线 Qwen Chat,并开放 API(阿里云百炼👉模型名:qwen3-max-2026-01-23)。

由于 Qwen 系列 API 兼容 OpenAI API 协议,你可以沿用调用 OpenAI API 的通用方式。以下是在 Python 中调用 Qwen3-Max-Thinking 的示例:

    from openai import OpenAI
    import os


    client = OpenAI(
        api_key=os.getenv("API_KEY"),
        base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
    )


    completion = client.chat.completions.create(
        model="qwen3-max-2026-01-23",
        messages=[
          {"role""user""content""Give me a short introduction to large language model."}],
        extra_body={"enable_thinking"True
    )
    print(completion.choices[0].message)

    Qwen Chat:https://chat.qwen.ai/

    API:https://bailian.console.aliyun.com/cn-beijing/?tab=model#/model-market/detail/qwen3-max-2026-01-23

    如果你在模型使用过程中遇到问题、有功能建议,或发现了惊艳的用法,欢迎在评论区留言。优质留言有机会被翻牌 + 送小彩蛋哦~


    AI 前线

    利用 NVIDIA MPS 扩展小型大语言模型

    2026-1-31 21:57:13

    AI 前线

    信息量很大!印奇出任阶跃星辰董事长的首次深度访谈

    2026-1-31 21:57:28

    0 条回复 A文章作者 M管理员
      暂无讨论,说说你的看法吧
    个人中心
    购物车
    优惠劵
    今日签到
    有新私信 私信列表
    搜索