彻底被 Kimi 的新模型惊到了。

文章详细介绍了 Kimi 最新发布的 K2.5 开源模型。该模型实现了原生视觉与文本的统一,告别了传统“外挂式”图像理解,大幅减少了信息损耗。作者通过实测发现,K2.5 在前端代码生成和复杂动画交互方面表现卓越,甚至在某些高难度任务上优于 Gemini 3.0 Pro。文章进一步分析了 Kimi 的技术路径:在算力受限的情况下,通过 Muon 优化器和 Kimi Linear 线性注意力机制等工程创新实现高效产出。目前 Kimi 聚焦于 Coding 和 Office 两大高频效率场景,旨在通过“Save Time”的效率工具属性,不断推高模型智能的上限,而非单纯追求社交娱乐化的“Kill Time”功能。




彻底被 Kimi 的新模型惊到了。

真的神了。下面这个网站是我用 AI 一次性直出的。我非常非常满意。实在是太好看了。

提示词也非常简单,我上传了一张自己喜欢的图片,然后告诉它基于这张图片的元素和配色生成一个网站。

用的模型正是 K2.5。

你应该看到了。今天下午,Kimi 发了最新的 K2.5 模型。

技术报告的第一行,他们自信地写道:The Most powerful open-source model to date。好欣赏这种骄傲的极客精神。

前几天达沃斯论坛上,月之暗面总裁张予彤聊到一个数字,我觉得挺有意思。

她说 Kimi 大概只用了美国顶尖实验室 1% 的资源,就做出了性能相当的模型。她的原话是:“创业第一天起我们就知道,我们没有随意堆砌算力的条件。”

没有条件硬拼资源,那就只能拼效率。她说 Kimi 花了很多时间做基础研究,然后用工程化的方式把这些研究在生产系统里跑通。

比如 Muon 优化器,Kimi 是全球第一家在大模型训练里跑通的。还有他们自研的线性注意力机制 Kimi Linear,比传统方案更快。

当你资源有限的时候,就必须把每一分算力都用在刀刃上。某种程度上,限制反而逼出了创新。Kimi 这家公司,越来越有看头。

K2.5 同样开源。在 Hugging Face 可以找到。

彻底被 Kimi 的新模型惊到了。

和之前的 K2 相比,K2.5 是一个原生的视觉和文本统一的模型,也就是说,K2.5 不再需要像 K2 那样,依靠外挂插件来理解图片,视觉能力是直接内生长在模型里面的。

过去大多数 AI 模型处理图片的方式,其实拼装出来的。

文本理解用一个模型,图像识别用另一个模型,中间再加一层翻译把两边的信息对接起来。这种做法问题是:信息在传递过程中会有损耗。

就像两个人通过翻译交流,哪怕翻译水平再高,也不如两个人直接用同一种语言聊天来得顺畅。

K2.5 这次把视觉和文本融合成了一个整体,这样效果会更好。对于很多场景而言,视觉是一个非常重要的输入。

我和团队刚刚测试完。今天下午真的忙疯了。说一个我们的直观感觉:

在前端的任务场景中,K2.5 的水准应该是超过了 Gemini 3.0 Pro。

因为我们玩了一些最近自己在 X 上看到的高难度的动画,发现它的生成效果和生成效率是比 Gemini  要好很多的。

直接上视频,不然大家还觉得我在替国产模型吹牛。

你看下面这个动画。我用 K2.5 三次就抽出来了。个人感觉这个难度已经够高了。同样拿 Gemini 3.0 测试,抽了十一次效果还不行,放弃了。

下面这是我的初始化提示词截图:

彻底被 Kimi 的新模型惊到了。

然后我还把 B 站截图给到 K2.5,下面是它生成的效果,完整度非常之高。

还有经典的卡包动画,我也用 K2.5 跑出来了。大家注意看卡片上的光感。

下面这个是我从 Kimi Agent 集群的页面里头看到的一个小交互。

这些动画效果对我来说还是非常赏心悦目的,特别是最后那个卡包动画。我花了点时间把它做成了一个可交互的版本,做完之后挺有成就感的。

做完之后我在想一个问题:当 AI 可以越来越好地搞定这种简约美观的动画时,是不是意味着接下来我们能看到越来越多好看的网站和交互效果?

因为过去受限于生产力,大家其实没有精力在这些地方雕花。

我记得刚工作那会儿,有一次想花时间打磨一个按钮的样式,领导就说:大的功能还没做完呢,你在这种地方花那么长时间,图什么?

不要在细节上雕花——这是过去很多人说的话。但我现在觉得,这个逻辑可能要变一变了。

雕花这件事本身没有错,过去不做,是因为在这种事情上的 ROI 太低了。花两小时调一个动画,产出和投入不成正比,领导当然不让你干。

但如果 AI 能在十分钟内把花雕好呢?ROI 一下子就变高了,这事儿就 work 了。

所以我有一个小小的期待:当生产力不再是瓶颈的时候,也许我们会看到更多在细节上用心的产品。

不是因为大家突然变得更有审美了,而是因为“把事情做得更好看”这件事,终于变得划算了。

说回 K2.5 的 Coding 能力,和以往一样,最让我惊艳的还是它的审美。生成出来的东西,确实好看。

除此之外,K2.5 这一次的另一个重头戏是 Office。官方公众号里还特意强调了下。

我知道 Kimi 做 Office 已经有一段时间了。想必 K2.5 应该是针对 Office 的知识做了专门的训练和对齐。

彻底被 Kimi 的新模型惊到了。

所以,我可以这么推测,Kimi 模型目前的两个重点应该是:Coding 和 Office。

AI Coding 的价值已经不用多说了,过去一年整个行业都在往这个方向卷,从 GitHub Copilot 到 Cursor 到 Claude Code,已经有足够多的案例证明 AI 能大幅提升程序员的生产力。

Office 这块可能没那么多人关注,但其实微软已经用真金白银验证过这个市场了。

他们给 Microsoft 365 加上 Copilot 功能之后,直接把订阅价格从每月 20 美元涨到 30 美元,涨幅 50%。而且企业还真买单。

为什么?因为 Office 类的任务是刚需,几乎每个白领每天都要跟 Word、Excel、PPT 打交道,这里面的效率提升是实打实能算出来的。

这两个方向有一个共同点:都是高频、高价值的工作场景。

Coding 面向开发者,Office 面向几乎所有知识工作者。Kimi 选择在这两个方向上重点投入,逻辑上是说得通的。

彻底被 Kimi 的新模型惊到了。

讲到这里,我想再拐出去聊另外一个话题。

因为腾讯这两天宣布在元宝里做社交功能。我的个人判断是,今年也会是各大模型公司走向分化的一年。

有的 AI 产品会侧重 Kill Time,有的 AI 产品会侧重 Save Time。这完全是不同的思路,且没有对错之分。

可以看出来,Kimi 很明显是朝着帮用户 Save Time 的方向去的。其实就是做效率工具。

我们常常把 AI 比作工业革命,我认为在当下的时间点看,AGI 的最大价值还是提升人类的生产效率。

而且 Save Time 这个方向,还有另一层意义:它更容易帮助模型去试探智能的上限。

怎么理解呢?Kill Time 类的产品,比如聊天陪伴,对模型的要求其实没那么高。只要回复得足够自然、有情绪价值,用户就满意了。

但 Save Time 类的产品不一样,它要的是结果。代码能不能跑通?文档格式对不对?任务有没有完成?这些都是硬指标,糊弄不过去。

所以做效率工具,其实是在逼着模型变得更强。每一个没完成的任务、每一个出错的环节,都是模型能力的边界。

把这些边界一点点往外推,模型才会真正进步。

我记得杨植麟在几次访谈里都提到过,他们的一个核心使命就是不断迭代 Kimi 的模型,去探寻智能的边界在哪里。

从这个角度看,Kimi 选择 Coding 和 Office 这两个方向,不只是商业上的考量,也是在给自己找一个足够难的题去解。


AI 前线

实测 K2.5,第一次有国产模型对齐 Gemini 3

2026-1-31 19:32:10

AI 前线

模型之外,AI 正在打开的新机会丨 a16z

2026-1-31 21:08:45

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索