文章详细测评了阿里最新发布的千问旗舰推理模型 Qwen3-Max-Thinking。作者通过五个实际应用场景(电商比价、ProductHunt 实时排名、春节自驾规划、Suno 歌词提取技术方案、电影票房预测)将其与 ChatGPT 和 Gemini 进行横向对比。实测结果显示,Qwen3 在中文搜索的实时性、排版美观度、逻辑严密性以及 Agent 工具调用能力上表现卓越。文章还简要分析了其背后的 Test-time Scaling(测试时扩展)机制,指出该技术通过多次采样、逐步推理和自我验证显著提升了模型在复杂任务中的表现。

1月26日,阿里发布了千问旗舰推理模型 Qwen3-Max-Thinking。
万亿参数,多项基准测试刷新全球纪录,但测试分数对普通人来说太抽象了。

真正让我好奇的是,模型在实际使用中到底如何?
基准测试看到一个超高“异常值”。
翻译过来意思:「人类的最后测试(带搜索)」
Qwen3-Max-Thinking 竟然得了 58.3 ,远超其他模型,这谁敢信?

带着疑问,测了我最近工作、生活中遇到的问题,结果人出乎意料。
如何体验
选择Qwen3-Max,打开深度思考(thinking)

测试一:电商比价购物
这两天 clawdbot 爆火,甚至带火了 Mac mini的销量。

X 上到处是 Mac mini的梗图,


群友也都在聊,哪里可以低价买Mac mini,提问如下:
Prompt:Mac mini如何拿到最低价购买,并找到下单地址
Qwen3-Max-Thinking 结果

ChatGPT结果

Gemini结果

个人感觉,Qwen3-Max-Thinking > Gemini > ChatGPT
因为Gemini 和 Qwen3-Max-Thinking都提到了京东国补,而且给的低价都是3187元左右。
都给出了京东Apple官方旗舰店,可惜Gemini给的是错误链接。
只有 ChatGPT 没提国补,给的商品价格偏高,OpenAI 是多想卖货啊。
插个题外话,如果真买了Mac mini,一定看看这个3D打印带屏外壳,太好看了!

测试二,实时信息获取
很多产品经理,都是爱刷 Producthunt,我也不例外。
Prompt:展示producthunt今天的最热的产品。

又问了ChatGPT,5.2 Thinking + 思考模式。

Gemini的结果如下

公布答案

简单对比就是看票数和排名顺序。
Qwen3-Max-Thinking 完全正确,且一票不差,牛逼!
ChatGPT 排名都对,但票数更新不实时。
最让我意外的是,以搜索擅长的谷歌,反而 Gemini 连排名信息都没搞对,结果最差。
看内容信息和排版,也是 Qwen3-Max-Thinking 完胜。
Emoji用的恰到好处,还展示了产品分类,很实用。
比光秃秃的 ChatGPT 体验好很多。
测试三:春节游玩路线规划
今年计划从北京开车回河南老家过年。
孩子今天放假,老婆也多请了三天假,时间充裕。
想着一路自驾玩着回家过年。
让AI出个行程规划,要求必须顺路,必须找出特色美食,和对孩子涨见识有帮助的景点或城市。
Prompt:从北京开车回河南焦作老家过年,路上3-4天时间,放慢节奏,安排沿途路过城市的美食、景点、住宿,要对孩子增长见识有帮助,吃的食物能终身难忘,住宿也要有特色或舒服(酒店一晚预算在600以内),帮我安排详细计划。
Qwen3-Max-Thinking

ChatGPT

Gemini

这个问题,几个模型回答各有千秋,不好分胜负。
从路线规划说起。
Gemini和ChatGPT第一站都提议去正定,而Qwen3-Max-Thinking提议去保定。
不知道河北的朋友怎么看。
共性是这几个模型都提议去安阳,去看殷墟,比较符合我的设想。
ChatGPT提议去洛阳我是没想到的,感觉会绕很远,而且时间上也不够。
从规划细致度看。
Qwen3-Max-Thinking 给的规划最细致,一天安排的明明白白。

Gemini和ChatGPT相对粗糙。


测试四:技术方案挖掘
最近一直在玩Skill。
写了很多有趣的东西,比如一句话解读论文,一句话生成公众号配图文章,一句话解读一本书等。
尤其是一些视频和音频方面的Skill。
作为音乐爱好者,当然少不了Suno。
已经搞定一句话生成Suno音乐下载。
下一步目标,把Suno音乐变成 MV。
但歌词识别方面遇到了障碍,因为不仅要歌词准,还要时间轴准。
试着让几个模型找技术方案。
Prompt: 我要获取一首suno生成的歌曲的精准歌词和字幕时间轴,应该用什么技术方案。
Qwen3-Max-Thinking

ChatGPT

Gemini

Qwen和ChatGPT都提到了一个Github库。(虽然只有7个星)
马上打开编程工具,瞬间写了个可用脚本。

本测试中,Gemini表现一般,给的都是常规思路。
最强的是Qwen3-Max-Thinking,不仅画了Mermaid流程图,给了多个技术方案,还找了两个付费 API 网站。



测试五:电影票房预测
本想预测下2026年春节档电影票房。
没想到手滑打错,打成了2006年 😂。
但结果反而很有趣。
Prompt:预测下2006春节档电影榜票房前三
Qwen3-Max-Thinking

ChatGPT

Gemini

Qwen3 马上纠错,说2006年距今20年,是确定的,不需要预测。
而且那时没有春节档说法,票房不好确定,然后给出了2026年的票房预测。
可能的排名:《飞驰人生 3》、《惊蛰无声》、《熊出没》
而ChatGPT和Gemini中规中矩给出了2006年春节档的票房排名。
但我查了历史“新闻”,硬说春节档票房第一,其实是《金刚》,超过霍元甲,这两个模型都说错了。

原因可能参考了维基百科的页面,好像未考虑《金刚》。
https://zh.wikipedia.org/wiki/%E8%B4%BA%E5%B2%81%E7%89%87#%E8%B4%BA%E5%B2%81%E6%A1%A3
也顺便学到了一个冷知识:
-
• 贺岁片:由1997年的冯小刚导演的《甲方乙方》开启。
-
• 春节档:2013年,周星驰导演的《西游降魔篇》大年初一正式上映,开启春节档这个说法。
Qwen3-Max-Thinking 真的可以
开始看到基准测试分数,我是有疑问的。
等自己测了以上问题,并刻意跟顶级模型对比后才发现。
Qwen3-Max-Thinking 竟真的不比ChatGPT 5.2 、Gemini3弱。
甚至直观感觉,中文检索回答问题能力更强。
好奇背后技术,简单研究了下。
Qwen3-Max-Thinking 采用了一种全新的测试时扩展(Test-time Scaling)机制,性能提升的同时还变得更经济。
Test-time Scaling是一种在AI模型使用阶段(而非训练阶段)投入更多计算资源来提升性能的技术。
核心思想
在模型推理(使用)时,通过以下方式投入更多计算:
-
• 多次采样:生成多个候选答案,选择最佳的
-
• 逐步推理:让模型"慢慢思考",展开更详细的推理步骤
-
• 自我验证:生成答案后进行检查和修正
-
• 搜索探索:尝试多条思路路径,找到最优解
Qwen3-MaxThinking 大幅增强了自主调用工具的原生Agent能力。
模型可自主选用搜索、个性化记忆和代码解释器等三个核心的Agent工具功能,像专业人士一样边用工具边思考。
以上面一个测试为例,模型会边搜索边思考。

这种能力很关键,不仅可以有效降低幻觉,而且对完成复杂任务很有帮助。
人类的最后测试(带搜索) 能拿到碾压其他模型的高分,就是最好的证明。
而且千问作为全球第一的开源大模型,模型尺寸是真多。
截至目前,总共开源了超过400个模型,最小0.5B,最大480B,涵盖文本、视觉等“全模态”。
全球累计下载量超10亿,真的是恐怖。
这种开放,对整个行业的发展是有价值的。
写在后面
AI 模型竞争还在进行,据说今年“春节档”非常热闹。
DeepSeek、GLM、Kimi,都可能会发新模型。
Qwen3-Max-Thinking 今天表现很亮眼,让我更好奇半年后国产大模型会如何发展?
不过至少现在,我们有了一个超强的顶尖 AI 模型。
强烈推荐你试试:
如果试过觉得好用,请一键三连支持乔帮主。

