我用阿里 Qwen3 Max Thinking 测了 5 个问题，彻底服气了

文章详细测评了阿里最新发布的千问旗舰推理模型 Qwen3-Max-Thinking。作者通过五个实际应用场景（电商比价、ProductHunt 实时排名、春节自驾规划、Suno 歌词提取技术方案、电影票房预测）将其与 ChatGPT 和 Gemini 进行横向对比。实测结果显示，Qwen3 在中文搜索的实时性、排版美观度、逻辑严密性以及 Agent 工具调用能力上表现卓越。文章还简要分析了其背后的 Test-time Scaling（测试时扩展）机制，指出该技术通过多次采样、逐步推理和自我验证显著提升了模型在复杂任务中的表现。

1月26日，阿里发布了千问旗舰推理模型 Qwen3-Max-Thinking。
万亿参数，多项基准测试刷新全球纪录，但测试分数对普通人来说太抽象了。

   真正让我好奇的是，模型在实际使用中到底如何？
基准测试看到一个超高“异常值”。
翻译过来意思：「人类的最后测试（带搜索）」
   Qwen3-Max-Thinking 竟然得了 58.3 ，远超其他模型，这谁敢信？

   带着疑问，测了我最近工作、生活中遇到的问题，结果人出乎意料。
如何体验https://chat.qwen.ai
选择Qwen3-Max，打开深度思考(thinking)

   测试一：电商比价购物这两天 clawdbot 爆火，甚至带火了 Mac mini的销量。

   X 上到处是 Mac mini的梗图，

   群友也都在聊，哪里可以低价买Mac mini，提问如下：
Prompt：Mac mini如何拿到最低价购买，并找到下单地址
   Qwen3-Max-Thinking 结果

      ChatGPT结果

   Gemini结果

我用阿里 Qwen3 Max Thinking 测了 5 个问题，彻底服气了

个人感觉，Qwen3-Max-Thinking > Gemini > ChatGPT
因为Gemini 和 Qwen3-Max-Thinking都提到了京东国补，而且给的低价都是3187元左右。
都给出了京东Apple官方旗舰店，可惜Gemini给的是错误链接。
只有 ChatGPT 没提国补，给的商品价格偏高，OpenAI 是多想卖货啊。
插个题外话，如果真买了Mac mini，一定看看这个3D打印带屏外壳，太好看了！

   测试二，实时信息获取很多产品经理，都是爱刷 Producthunt，我也不例外。
Prompt：展示producthunt今天的最热的产品。

   又问了ChatGPT，5.2 Thinking + 思考模式。

   Gemini的结果如下

   公布答案

   简单对比就是看票数和排名顺序。
   Qwen3-Max-Thinking 完全正确，且一票不差，牛逼！
ChatGPT 排名都对，但票数更新不实时。
最让我意外的是，以搜索擅长的谷歌，反而 Gemini 连排名信息都没搞对，结果最差。
看内容信息和排版，也是 Qwen3-Max-Thinking 完胜。
Emoji用的恰到好处，还展示了产品分类，很实用。
比光秃秃的 ChatGPT 体验好很多。
测试三：春节游玩路线规划今年计划从北京开车回河南老家过年。
孩子今天放假，老婆也多请了三天假，时间充裕。
想着一路自驾玩着回家过年。
让AI出个行程规划，要求必须顺路，必须找出特色美食，和对孩子涨见识有帮助的景点或城市。
Prompt：从北京开车回河南焦作老家过年，路上3-4天时间，放慢节奏，安排沿途路过城市的美食、景点、住宿，要对孩子增长见识有帮助，吃的食物能终身难忘，住宿也要有特色或舒服（酒店一晚预算在600以内），帮我安排详细计划。
Qwen3-Max-Thinking

   ChatGPT

   Gemini

   这个问题，几个模型回答各有千秋，不好分胜负。
从路线规划说起。
Gemini和ChatGPT第一站都提议去正定，而Qwen3-Max-Thinking提议去保定。
不知道河北的朋友怎么看。
共性是这几个模型都提议去安阳，去看殷墟，比较符合我的设想。
ChatGPT提议去洛阳我是没想到的，感觉会绕很远，而且时间上也不够。
从规划细致度看。
   Qwen3-Max-Thinking 给的规划最细致，一天安排的明明白白。

   Gemini和ChatGPT相对粗糙。

   测试四：技术方案挖掘最近一直在玩Skill。
写了很多有趣的东西，比如一句话解读论文，一句话生成公众号配图文章，一句话解读一本书等。
尤其是一些视频和音频方面的Skill。
作为音乐爱好者，当然少不了Suno。
已经搞定一句话生成Suno音乐下载。
下一步目标，把Suno音乐变成 MV。
但歌词识别方面遇到了障碍，因为不仅要歌词准，还要时间轴准。
试着让几个模型找技术方案。
Prompt: 我要获取一首suno生成的歌曲的精准歌词和字幕时间轴，应该用什么技术方案。
Qwen3-Max-Thinking

   ChatGPT

   Gemini

   Qwen和ChatGPT都提到了一个Github库。（虽然只有7个星）
https://github.com/zh30/get-suno-lyric
马上打开编程工具，瞬间写了个可用脚本。

   本测试中，Gemini表现一般，给的都是常规思路。
最强的是Qwen3-Max-Thinking，不仅画了Mermaid流程图，给了多个技术方案，还找了两个付费 API 网站。

   https://lyrictime.com/

   https://duomiapi.com/type/11

   测试五：电影票房预测本想预测下2026年春节档电影票房。
没想到手滑打错，打成了2006年 😂。
但结果反而很有趣。
Prompt:预测下2006春节档电影榜票房前三
Qwen3-Max-Thinking

   ChatGPT

   Gemini

   Qwen3 马上纠错，说2006年距今20年，是确定的，不需要预测。
而且那时没有春节档说法，票房不好确定，然后给出了2026年的票房预测。
可能的排名：《飞驰人生 3》、《惊蛰无声》、《熊出没》
而ChatGPT和Gemini中规中矩给出了2006年春节档的票房排名。
但我查了历史“新闻”，硬说春节档票房第一，其实是《金刚》，超过霍元甲，这两个模型都说错了。

   原因可能参考了维基百科的页面，好像未考虑《金刚》。
https://zh.wikipedia.org/wiki/%E8%B4%BA%E5%B2%81%E7%89%87#%E8%B4%BA%E5%B2%81%E6%A1%A3
也顺便学到了一个冷知识：
• 贺岁片：由1997年的冯小刚导演的《甲方乙方》开启。
• 春节档：2013年，周星驰导演的《西游降魔篇》大年初一正式上映，开启春节档这个说法。
Qwen3-Max-Thinking 真的可以开始看到基准测试分数，我是有疑问的。
等自己测了以上问题，并刻意跟顶级模型对比后才发现。
Qwen3-Max-Thinking 竟真的不比ChatGPT 5.2 、Gemini3弱。
甚至直观感觉，中文检索回答问题能力更强。
好奇背后技术，简单研究了下。
Qwen3-Max-Thinking 采用了一种全新的测试时扩展（Test-time Scaling）机制，性能提升的同时还变得更经济。
Test-time Scaling是一种在AI模型使用阶段（而非训练阶段）投入更多计算资源来提升性能的技术。
核心思想
在模型推理（使用）时，通过以下方式投入更多计算：
• 多次采样：生成多个候选答案，选择最佳的
• 逐步推理：让模型"慢慢思考"，展开更详细的推理步骤
• 自我验证：生成答案后进行检查和修正
• 搜索探索：尝试多条思路路径，找到最优解
Qwen3-MaxThinking 大幅增强了自主调用工具的原生Agent能力。
模型可自主选用搜索、个性化记忆和代码解释器等三个核心的Agent工具功能，像专业人士一样边用工具边思考。
以上面一个测试为例，模型会边搜索边思考。

   这种能力很关键，不仅可以有效降低幻觉，而且对完成复杂任务很有帮助。
人类的最后测试（带搜索） 能拿到碾压其他模型的高分，就是最好的证明。
而且千问作为全球第一的开源大模型，模型尺寸是真多。
截至目前，总共开源了超过400个模型，最小0.5B，最大480B，涵盖文本、视觉等“全模态”。
全球累计下载量超10亿，真的是恐怖。
这种开放，对整个行业的发展是有价值的。
写在后面AI 模型竞争还在进行，据说今年“春节档”非常热闹。
DeepSeek、GLM、Kimi，都可能会发新模型。
Qwen3-Max-Thinking 今天表现很亮眼，让我更好奇半年后国产大模型会如何发展？
不过至少现在，我们有了一个超强的顶尖 AI 模型。
强烈推荐你试试：
https://chat.qwen.ai
如果试过觉得好用，请一键三连支持乔帮主。