何止是“看图写代码”,Kimi K2.5 甚至可以“看视频写代码”!

文章对月之暗面新发布的 Kimi K2.5 模型及其配套工具 Kimi Code 进行了实战评测。作者指出,Kimi K2.5 的核心突破在于多模态能力的深度集成,尤其是支持直接理解视频内容并生成对应代码,这一特性目前领先于 Claude Code 等海外主流工具。此外,Kimi Agent 能够通过云端虚拟机模拟人类操作浏览器、生成素材并完成网页克隆。尽管在处理超大规模复杂项目的逻辑推理上与 Claude 4.5 等顶级模型仍有差距,但其开源属性、高性价比以及在小型项目中的高效表现,使其成为国产 AI 编程工具中的有力竞争者。




何止是“看图写代码”,Kimi K2.5 甚至可以“看视频写代码”!

哈喽,大家好,我是刘小排。

以前的国产模型似乎都是海外顶级模型的跟随者,这次Kimi K2.5有些不同,它不仅有多模态能力,还做出来了一些Codex 和Claude Code暂时都还做不到的事情——“看视频写代码”。

省流版

亮点

  1. 有多模态能力了。不止“看图写代码”,Kimi K2.5 甚至支持“看视频写代码”! 其中,‘看视频’目前Codex、Claude Code都无法做到的,支持100M以内的视频文件。

  2. Kimi Agent可以在云端打开一台电脑,完成复杂任务。对于程序员来说,我们可以“根据一条URL,复刻写出代码”,连页面里需要的图片都可以自动生成。

  3. Kimi Code是开源的,方便程序员魔改。看了下代码,是基于Python从零构建的,不是跟风或者抄袭其他Code。

  4. Kimi 2.5模型本身,也是开源的

一些遗憾

  1. 模型本身的编程智能水平和海外顶级模型,在复杂项目当中,仍然有些差距。(如果是小型简单项目,差距倒是不明显。)希望下一代K3中可以解决。

  2. Kimi Code的交互设计有个新功能,本意是让用户按Ctrl+X切换bash和agent,但是和用户现有使用Claude Code的习惯不太符合,我用着不是很顺手。你可以试试看,想必如果能够适应新习惯,是很方便的。

下面我们开始测试!

安装Kimi Code

本次测试以Kimi Code为主,后面也使用网页版的功能。

安装Kimi Code

# Linux / macOS
curl -LsSf https://cdn.kimi.com/binaries/kimi-cli/install.sh | bash

# Windows (PowerShell)
Invoke-RestMethod https://cdn.kimi.com/binaries/kimi-cli/install.ps1 | Invoke-Expression

我们先到 https://www.kimi.com/code 购买套餐。

如果是想初步体验,可以先买最便宜的套餐,只需要 4.99元 / 7天,约等于免费。

如果日常每天使用,我推荐购买99元/月的套餐,价格公道,Token量比较够用。

安装完成后,在命令行输入 kimi 启动

输入 /login 登录即可使用

image

基础模态能力:看图写代码

用最简单的Prompt试试:我复制了Toolify首页截图,用Kimi Code输入

复刻这个图片,用html

图片

贴图的过程很方便,无论是直接Cmd+V粘贴、文件路径、拖入,都可以。

Kimi Code (with Kimi K2.5)的工作流程很顺利。从输出的思考过程可以看出,它还挺耐心的先拆解了截图的布局,然后再依次拆分控件来写。

图片

图片

结果如下。 下图:左边是原版截图,右边是Kimi Code复刻的

还不错吧?还原度怎么说也在90%以上了。

图片

图片

亮点:看视频写代码!

Kimi K2有‘看视频写代码’这个能力我还挺意外的。

我先录了自己的Twitter的视频,也是同时打开Codex、Claude Code、Kimi Code(with K2.5)进行测试。

接下来,看这个视频,复刻出来所有主要页面 /Users/liuxiaopai/Downloads/录屏-Twitter主要页面.mp4

显然,Claude Code和Codex是无法完成这个任务的,下图1是Claude Code、图2是Codex。

这两位海外留学生,都打算采用‘把视频按照每秒1次的频率进行截图,再复刻截图’,进行曲线救国。这不算真正的理解视频。

图片

图片

但是,Kimi是可以直接理解视频的!我们试试!

我们从Kimi的思考过程中可以发现,Kimi完全理解了视频内容,它根据视频,规划出来需要完成的所有页面了。amazing !

图片

不一会儿就完成了

图片

下面的视频是完成的效果。

还原度80%,谈不上特别完美。

但鉴于除了视频啥都没给,已经相当不错。后面可以继续打磨。

云端电脑,一条URL即可克隆网页代码

注意,这个功能如果在Kimi Code里试,效果并不好。推荐使用Kimi网页版,使用Kimi K2.5 Agent。

因为Kimi K2.5 Agent会在远程打开一台电脑(云端虚拟机)来完成这项任务。

图片

Kimi K2.5 Agent打开了一台电脑(云端虚拟机)。

它经过思考,决定首先通过云端电脑上的浏览器,查看目标网站的样子。

图片

接下来,Kimi Agent开始在云端电脑上,自动生成这个页面上需要的图片…… 还挺厉害的

图片

最后,开始参考对标的URL,写代码了

图片

最后,开始自动执行命令,安装依赖、运行代码

图片

我本来以为完事,没想到,K2.5 Agent还挺用心,它开始自我PUA —— 自己检查自己的劳动成果,是否符合要求

图片

下面就是最终的成品了。大概是90%的还原程度吧,还不错,没有大毛病。

图片

云端电脑生成的代码,如何和本地的开发环境结合呢? 简单,我们可以一键把所有代码下载下来。

图片

一些遗憾

  1. 模型本身的编程智能水平和海外顶级模型相比,仍然有些差距,期待下一代K3可以解决。

我使用了我的AnyVoice产品 (https://anyvoice.net )项目做测试,今天早上正好有用户反馈了一个bug:修改密码后,无法成功登录。

我同时打开了Codex、Claude Code和Kimi Code,进行能力对比。

即便是一个纷繁复杂的项目、我给出的提示词少得可怜,Claude Code (Claude Opus 4.5)和Codex (GPT-5.2-Codex xhigh)都一次性得出了正确结论。

图片

但是Kimi无法得到正确结论。我经过反复尝试,后来还强调了“阅读所有代码”和“重点看BetterAuth的逻辑”,仍然无法得出正确结论。

图片

图片

最后得出的结论是错误的,遗憾了。

图片

不过,编码能力仍然是有进步的。

在稍微小型、简单的项目当中,Kimi K2.5 的表现是OK的,速度也挺快

期待下一代K3的表现!

  1. Kimi Code的交互设计,有个和我以前使用习惯不同的功能

由于Kimi Code的输入框长得和普通的bash太像了,我误以为是bash/zsh,打了一个'ls'命令,才意识到它是Kimi Code。

这是Kimi Code一个Feature,实际上可以通过 Ctrl + X进行切换,如果可以习惯这个功能,那还蛮好用。

但是它和我以前使用Codex、Claude Code的使用习惯不太符合,我还是挺容易弄混淆的。

图片

感觉怎么样?

期待你的反馈。


AI 前线

实测 K2.5,第一次有国产模型对齐 Gemini 3

2026-1-31 21:09:36

AI 前线

从爆火的 Clawdbot 身上,我看到了端侧 AI 的另一种可能性

2026-1-31 21:09:43

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索