我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

文章详细测评了阿里最新发布的千问旗舰推理模型 Qwen3-Max-Thinking。作者通过五个实际应用场景(电商比价、ProductHunt 实时排名、春节自驾规划、Suno 歌词提取技术方案、电影票房预测)将其与 ChatGPT 和 Gemini 进行横向对比。实测结果显示,Qwen3 在中文搜索的实时性、排版美观度、逻辑严密性以及 Agent 工具调用能力上表现卓越。文章还简要分析了其背后的 Test-time Scaling(测试时扩展)机制,指出该技术通过多次采样、逐步推理和自我验证显著提升了模型在复杂任务中的表现。




我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

1月26日,阿里发布了千问旗舰推理模型 Qwen3-Max-Thinking。

万亿参数,多项基准测试刷新全球纪录,但测试分数对普通人来说太抽象了。

我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

真正让我好奇的是,模型在实际使用中到底如何?

基准测试看到一个超高“异常值”。

翻译过来意思:「人类的最后测试(带搜索)」

Qwen3-Max-Thinking 竟然得了 58.3 ,远超其他模型,这谁敢信?

我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

带着疑问,测了我最近工作、生活中遇到的问题,结果人出乎意料。

如何体验

https://chat.qwen.ai

选择Qwen3-Max,打开深度思考(thinking)

我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

测试一:电商比价购物

这两天 clawdbot 爆火,甚至带火了 Mac mini的销量。

我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

X 上到处是 Mac mini的梗图,

我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了
我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

群友也都在聊,哪里可以低价买Mac mini,提问如下:

Prompt:Mac mini如何拿到最低价购买,并找到下单地址

Qwen3-Max-Thinking 结果


我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

ChatGPT结果


我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

Gemini结果

我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

个人感觉,Qwen3-Max-Thinking > Gemini > ChatGPT

因为Gemini 和 Qwen3-Max-Thinking都提到了京东国补,而且给的低价都是3187元左右。

都给出了京东Apple官方旗舰店,可惜Gemini给的是错误链接。

只有 ChatGPT 没提国补,给的商品价格偏高,OpenAI 是多想卖货啊。

插个题外话,如果真买了Mac mini,一定看看这个3D打印带屏外壳,太好看了!

我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

测试二,实时信息获取

很多产品经理,都是爱刷 Producthunt,我也不例外。

Prompt:展示producthunt今天的最热的产品。

我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

又问了ChatGPT,5.2 Thinking + 思考模式。

我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

Gemini的结果如下

我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

公布答案

我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

简单对比就是看票数和排名顺序。

Qwen3-Max-Thinking 完全正确,且一票不差,牛逼!

ChatGPT 排名都对,但票数更新不实时。

最让我意外的是,以搜索擅长的谷歌,反而 Gemini 连排名信息都没搞对,结果最差。

看内容信息和排版,也是 Qwen3-Max-Thinking 完胜。

Emoji用的恰到好处,还展示了产品分类,很实用。

比光秃秃的 ChatGPT 体验好很多。

测试三:春节游玩路线规划

今年计划从北京开车回河南老家过年。

孩子今天放假,老婆也多请了三天假,时间充裕。

想着一路自驾玩着回家过年。

让AI出个行程规划,要求必须顺路,必须找出特色美食,和对孩子涨见识有帮助的景点或城市。

Prompt:从北京开车回河南焦作老家过年,路上3-4天时间,放慢节奏,安排沿途路过城市的美食、景点、住宿,要对孩子增长见识有帮助,吃的食物能终身难忘,住宿也要有特色或舒服(酒店一晚预算在600以内),帮我安排详细计划。

Qwen3-Max-Thinking

我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

ChatGPT

我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

Gemini

我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

这个问题,几个模型回答各有千秋,不好分胜负。

从路线规划说起。

Gemini和ChatGPT第一站都提议去正定,而Qwen3-Max-Thinking提议去保定。

不知道河北的朋友怎么看。

共性是这几个模型都提议去安阳,去看殷墟,比较符合我的设想。

ChatGPT提议去洛阳我是没想到的,感觉会绕很远,而且时间上也不够。

从规划细致度看。

Qwen3-Max-Thinking 给的规划最细致,一天安排的明明白白。

我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

Gemini和ChatGPT相对粗糙。

我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了
我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

测试四:技术方案挖掘

最近一直在玩Skill。

写了很多有趣的东西,比如一句话解读论文,一句话生成公众号配图文章,一句话解读一本书等。

尤其是一些视频和音频方面的Skill。

作为音乐爱好者,当然少不了Suno。

已经搞定一句话生成Suno音乐下载。

下一步目标,把Suno音乐变成 MV。

但歌词识别方面遇到了障碍,因为不仅要歌词准,还要时间轴准。

试着让几个模型找技术方案。

Prompt: 我要获取一首suno生成的歌曲的精准歌词和字幕时间轴,应该用什么技术方案。

Qwen3-Max-Thinking

我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

ChatGPT

我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

Gemini

我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

Qwen和ChatGPT都提到了一个Github库。(虽然只有7个星)

https://github.com/zh30/get-suno-lyric

马上打开编程工具,瞬间写了个可用脚本。

我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

本测试中,Gemini表现一般,给的都是常规思路。

最强的是Qwen3-Max-Thinking,不仅画了Mermaid流程图,给了多个技术方案,还找了两个付费 API 网站。

我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

https://lyrictime.com/

我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

https://duomiapi.com/type/11

我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

测试五:电影票房预测

本想预测下2026年春节档电影票房。

没想到手滑打错,打成了2006年 😂。

但结果反而很有趣。

Prompt:预测下2006春节档电影榜票房前三

Qwen3-Max-Thinking

我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

ChatGPT

我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

Gemini

我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

Qwen3 马上纠错,说2006年距今20年,是确定的,不需要预测。

而且那时没有春节档说法,票房不好确定,然后给出了2026年的票房预测。

可能的排名:《飞驰人生 3》、《惊蛰无声》、《熊出没》

而ChatGPT和Gemini中规中矩给出了2006年春节档的票房排名。

但我查了历史“新闻”,硬说春节档票房第一,其实是《金刚》,超过霍元甲,这两个模型都说错了。

我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

原因可能参考了维基百科的页面,好像未考虑《金刚》。

https://zh.wikipedia.org/wiki/%E8%B4%BA%E5%B2%81%E7%89%87#%E8%B4%BA%E5%B2%81%E6%A1%A3

也顺便学到了一个冷知识:

  • • 贺岁片:由1997年的冯小刚导演的《甲方乙方》开启。

  • • 春节档:2013年,周星驰导演的《西游降魔篇》大年初一正式上映,开启春节档这个说法。

Qwen3-Max-Thinking 真的可以

开始看到基准测试分数,我是有疑问的。

等自己测了以上问题,并刻意跟顶级模型对比后才发现。

Qwen3-Max-Thinking 竟真的不比ChatGPT 5.2 、Gemini3弱。

甚至直观感觉,中文检索回答问题能力更强。

好奇背后技术,简单研究了下。

Qwen3-Max-Thinking 采用了一种全新的测试时扩展(Test-time Scaling)机制,性能提升的同时还变得更经济。

Test-time Scaling是一种在AI模型使用阶段(而非训练阶段)投入更多计算资源来提升性能的技术。

核心思想

在模型推理(使用)时,通过以下方式投入更多计算:

  • • 多次采样:生成多个候选答案,选择最佳的

  • • 逐步推理:让模型"慢慢思考",展开更详细的推理步骤

  • • 自我验证:生成答案后进行检查和修正

  • • 搜索探索:尝试多条思路路径,找到最优解

Qwen3-MaxThinking 大幅增强了自主调用工具的原生Agent能力。

模型可自主选用搜索、个性化记忆和代码解释器等三个核心的Agent工具功能,像专业人士一样边用工具边思考。

以上面一个测试为例,模型会边搜索边思考。

我用阿里 Qwen3 Max Thinking 测了 5 个问题,彻底服气了

这种能力很关键,不仅可以有效降低幻觉,而且对完成复杂任务很有帮助。

人类的最后测试(带搜索) 能拿到碾压其他模型的高分,就是最好的证明。

而且千问作为全球第一的开源大模型,模型尺寸是真多。

截至目前,总共开源了超过400个模型,最小0.5B,最大480B,涵盖文本、视觉等“全模态”。

全球累计下载量超10亿,真的是恐怖。

这种开放,对整个行业的发展是有价值的。

写在后面

AI 模型竞争还在进行,据说今年“春节档”非常热闹。

DeepSeek、GLM、Kimi,都可能会发新模型。

Qwen3-Max-Thinking 今天表现很亮眼,让我更好奇半年后国产大模型会如何发展?

不过至少现在,我们有了一个超强的顶尖 AI 模型。

强烈推荐你试试:

https://chat.qwen.ai

如果试过觉得好用,请一键三连支持乔帮主。


AI 前线

大模型哪里出问题、怎么修,这篇可解释性综述一次讲清

2026-1-31 21:45:35

AI 前线

Altman 承认“搞砸了”!曝 GPT-5.2 牺牲写作换顶级编程,明年成本降 100 倍,实锤 Agent 已能永久干活

2026-1-31 21:45:43

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索