深度| 大模型年终观察,如何定义 2025 年的"好模型"?

文章指出,2025 年大模型行业告别“跑分疲劳症”,转向将开源模型视为“必选项”的新共识。衡量顶尖模型的标准从单纯的基础能力转向更为务实的“信任”,即模型在评测、部署和交付这三个维度的表现。文章通过 OpenRouter 等权威报告的数据,揭示了生产力拐点已现,复杂任务正稳定交付给 AI。在评测方面,多维评测体系正在形成,兼顾性能、成本和真实使用反馈。部署方面,模型的可部署性成为信任的地基,硬件加速和透明化定价推动产业化应用。交付则强调可治理、可观测和可复现,确保模型在企业环境中“跑得稳”。最终,文章总结出赢得信任的模型才能成为真正的生产力,卓越运营、可控性、安全性和可观测性将成为未来竞争的核心。




当跑分不再性感,行业在重新寻找标尺

2025 年的 AI 世界,弥漫着一种跑分疲劳症。但比这更深刻的,是一个正在加速成型的行业共识:开源模型正从可选项走向默认使用的必选项——Interconnects.ai 在其年度回顾《2025: Open Models Year in Review》中用大量篇幅讨论了这一趋势,DeepSeekQwenKimi成为最前线的开源模型。

深度| 大模型年终观察,如何定义 2025 年的"好模型"?

图源: Interconnects.ai 

衡量顶尖模型的标准,正在经历一次深刻的变革。行业心态正从选秀式逐冠军,转向基建式找伙伴。在这个新范式中,模型的基础能力只是入场券,而由评测、部署、交付三个维度构成的信任,才是让 AI 真正融入业务流程的通行证。

本篇年终盘点,将从这三个最务实的维度出发,解构 AI 行业正在形成的信任法则

信号:从尝鲜留存,生产力拐点已现

过去,每一轮模型发布都像一场烟火,热度在瞬间冲顶后迅速归零。开发者尝鲜即走,留不下真实使用。

 2025 年的图表,第一次向我们展示了截然不同的曲线。

权威的 AI 模型路由平台 OpenRouter 在其年终发布的《The 2025 State of AI Report》报告中,揭示了一个关键转折。报告指出:开源权重模型的token 份额,在经历了数次关键发布(如 DeepSeek V3Kimi K2Llama 3.1 等)后,于 2025 年底稳定突破了平台总量的三分之一。最关键的信号在于,这些模型的调用量在发布会带来的峰值之后,并未像以往那样断崖式坠落,而是稳定维持在一个远高于发布前基线的新平台上。

深度| 大模型年终观察,如何定义 2025 年的"好模型"?

开源模型 token份额在关键发布后实现峰值后高位平稳。图源:OpenRouter 

更具说服力的数据来自任务复杂度的变化。报告显示,专用于复杂推理、规划和代理任务的推理类模型Reasoning Models)的调用量,在一年内经历了爆炸式增长——从 2024 年底几乎可以忽略不计的份额,飙升至占据超过 50% 的 token 消耗份额。与此同时,API 调用的平均任务长度(Average Sequence Length)也在过去约 20 个月显著上升:从 2023 年后期不足 2000 tokens增长到2025 年后期超过 5400 tokens

这组曲线的意义,远超过任何一场新模型发布:真实世界的复杂任务,终于开始稳定地交给 AI 完成。

深度| 大模型年终观察,如何定义 2025 年的"好模型"?

Reasoning 模型 token 份额与平均序列长度:任务复杂度显著提升。图源:OpenRouter 

这组曲线的意义,超过任何一场新模型发布:真实世界的复杂任务,终于开始稳定地交给 AI 完成。2025 年的高位平稳期,标志着行业第一次从技术玩具跨向生产工具,信任正在取代新奇,成为驱动 AI 应用的根本力量。

评测:从分数游戏到体系共识

尽管行业对刷榜感到疲劳,但在模型发布初期,赢得关键榜单的头筹,依然是获取开发者和社区关注、赢得入场券的必要步骤。一个模型只有先被看见,才有可能被信任

2025 年,一个赢得这张入场券的典型代表就是 Kimi K2 Thinking。它在发布时,同时在两大关键评测中登顶:

在评测机构 Artificial Analysis 的体系中,Kimi K2 Thinking在其 Intelligence Index 上获得了 open-weights 模型中的最高分

深度| 大模型年终观察,如何定义 2025 年的"好模型"?

Artificial Analysis Intelligence Index by Open Weights vs Proprietary (7 Nov 25) 图源:Artificial Analysis

在基于人类盲测偏好的LMSYS Chatbot Arena上,Kimi K22025-07-17 的 Arena leaderboard上,Kimi K2 在开源模型中排名第一。

这一系列亮眼的成绩,加上被 Interconnects.ai 的知名分析师 Nathan Lambert 选入年度前三模型,使其迅速获得了全球范围的关注。但榜单之外,来自资深从业者的实际选择,也成为衡量模型价值的新维度。例如,由前 OpenAI 首席技术官 Mira Murati 创办的新公司 Thinking Machines Lab,在其备受瞩目的首款产品 Tinker 中,便集成了 Kimi K2 Thinking,以支持其复杂的推理与工具调用功能。这种基于产品需求的集成决策,正成为比排名更具参考价值的行业信号。

深度| 大模型年终观察,如何定义 2025 年的"好模型"?

图源:X@miramurati

深度| 大模型年终观察,如何定义 2025 年的"好模型"?

图源:X@thinkymachines 

如今,单一榜单已无法定义模型,一个由数据驱动和使用实证构成的多维评测体系正在形成:

1. 数据驱动型:性能与成本的双轴平衡

以分析机构Artificial Analysis为代表。其提出的智能指数 成本指数双轴框架,将性能与成本同时纳入评估,直观地揭示了模型的性价比。该评估涵盖智能度、成本、可控性、生态适配度四大方面,数据来源包括 Hugging FaceOpenRouter 的真实调用,强调最聪明的不一定最经济,最经济的未必最可靠

深度| 大模型年终观察,如何定义 2025 年的"好模型"?

“Analysis of OpenAI’s gpt-oss models” (Aug 6, 2025) 图源: Artificial Analysis 

2. 使用实证型:来自生产现场的真实反馈

OpenRouter为代表。其积累的 100T tokens 真实调用数据,让评测不再是实验室成绩,而是生产实测数据。其中包括模型在不同任务下的成功率、token 序列长度、调用失败率等。一个模型能否在峰值后维持高位调用,是其产品力最直接的证明。

权威榜单的高分是敲门砖,而后续在多维评测体系和真实使用数据中的持续优异表现,共同构成了信任的量化坐标

部署:让模型跑得起的基础工程

评测是把模型测出来,部署则是把模型跑起来。企业真正关注的是跑得起、跑得稳、跑得久2025 年,可部署性成为信任的第二地基。

硬件巨头NVIDIA GTC 大会上公布的数据成为重要背书:Kimi K2 ThinkingQwen2 MoE 模型在最新的 GB200 NVL72架构上,实现了10 倍推理加速,同时 token 成本降低 90%。这证明了这些模型具备了大规模产业化部署的潜力。

与此同时,以FireworksTogetherOpenRouter为代表的云端推理平台,也推动了部署成本的透明化。它们公开每百万 tokens 的精确报价,让模型调用从过去的估价模式,彻底转变为像云计算资源一样明码标价,性价比成为可量化的硬指标。

交付:治理与可控,信任的最后一公里

如果说评测和部署解决了能不能用用不用得起的问题,那么交付就是确保模型在企业环境中跑得稳的最后一公里。它关乎可治理、可观测、可复现

可治理:进入企业级栈

2025 年 Q4AWSAzureGoogle Cloud三大云厂商几乎同时将 ClaudeKimiMistral 等顶级模型纳入其企业级托管服务。这意味着企业可以通过统一的 API 调用这些模型,并享受云平台提供的统一安全、权限管理和 SLA 保证,模型被正式纳入了企业 IT 治理框架。

可观测:工具调用性能被量化

长期以来,相同模型、相同工具,结果却不稳定的问题,是 Agent 应用落地的巨大障碍。2025 年,行业在可观测性上取得重要进展。受 Moonshot AI等团队在工具调用可靠性方面的工程实践启发,OpenRouter 在 10 月推出了 exacto系统。该系统专注于量化和监控模型在工具调用任务上的表现方差(variance),通过遥测数据确保工具调用的稳定性和一致性。这标志着行业开始用工程化手段,解决 AI 在复杂任务中的可靠性问题。

深度| 大模型年终观察,如何定义 2025 年的"好模型"?

图源: Openrouter 

可复现:从结果可感知过程可执行

对于高风险领域,AI 黑箱特性是应用的最大障碍。2025 年,行业在可复现性上迈出关键一步。Hugging Face展示的Kimi K2 Thinking应用示例中,清晰记录了模型执行多步工具链(search → browse → code → report)的全过程,每一步的 trace 都被完整记录。这标志着模型能力不再停留于输出好看,而是进入了流程可复现、任务可交付的阶段。

结尾:下一站,业务可靠性

回望 2025AI 行业最重要的事件并非谁赢了榜单,而是行业在喧嚣过后,终于共同确立了一条从跑分信任再到生产力的可验证路径。

赢得榜单是赢得关注的开始,而赢得信任才是商业成功的核心。一个模型只有在评测、部署、交付的全链条上都表现出色,才能真正从一个高分模型转变为企业的可靠伙伴

OpenRouter 的年终报告已经为 2026 年指明了关键词:卓越运营(Operational Excellence——未来焦点将是任务完成率、生产稳定性以及与真实工作负载的对齐。Partnership on AI 与微软 AI Red Team 的研究也指出,未来竞争的核心不再是智能度,而是可控性、安全性与可观测性

信任,从来不是信仰,而是工程。

赢得信任的模型,才可能成为 2026 年的真正生产力。

References

https://a16z.com/state-of-ai/

https://openrouter.ai/announcements/provider-variance-introducing-exacto

https://www.interconnects.ai/p/2025-open-models-year-in-review?locale=zh_CN

https://www.nist.gov/news-events/news/2025/12/caisi-evaluation-kimi-k2-thinking

https://blogs.nvidia.com/blog/mixture-of-experts-frontier-models/

https://thinkingmachines.ai/blog/tinker-general-availability/

https://huggingface.co/moonshotai/Kimi-K2-Thinking?utm_source=chatgpt.com


AI 前线

科技爱好者周刊(第 356 期):公司强推 AI 编程,我该怎么办

2025-12-24 22:31:21

AI 前线

GPT Image 1.5 实测 & Prompt 指南

2025-12-24 22:31:28

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索