红杉 xbench 评测:大模型的视觉能力,普遍低于 3 岁儿童

本文基于红杉中国 xbench 和 UniPat AI 联合发布的新多模态评测集 BabyVision,深入分析了当前最强多模态大模型在纯视觉任务上的表现。核心发现是,这些模型在精细辨别、视觉追踪、空间感知和视觉模式识别等任务上,其准确率普遍远低于 3 岁儿童(人类准确率为 94.1%,顶级模型 Gemini 3 Pro Preview 仅为 49.7%)。文章详细阐述了 BabyVision 评测的设计思路,特别是其严格控制语言依赖,旨在测试模型在无法进行语言推理时的纯视觉理解能力。并从“非语言细节”丢失、视觉追踪能力差、缺乏空间想象力以及图形规律归纳困难等四个典型挑战,解释了模型“翻车”的原因。最后介绍了 BabyVision-Gen 尝试通过生成式作答(模型输出图像或视频)来弥补现有模型在视觉推理上的短板,并对红杉 xbench 这一独特的双轨评估体系(AGI Tracking 和 Profession-Aligned)进行了介绍,强调其在评估 AI 技术真实能力和落地价值方面的重要性。




红杉中国 xbench 和 UniPat AI 发了一个新的多模态评测集,叫 BabyVision,在这里:多模态大模型输给三岁宝宝?xbench x UniPat联合发布新评测集BabyVision

核心发现:当前最强的多模态模型,在纯视觉任务上的得分,普遍低于3岁儿童

人类准确率 94.1%


而在模型当中,Gemini 3 Pro Preview 最高,49.7%


大多数模型,则在 12-22% 区间

AI 一败涂地

这个评测的设计思路有点意思,和大家分享一下

先看一道题

三件物品,沿着线分别连到哪个颜色垃圾桶?

垃圾分类连线题

正确答案:A-蓝B-黄C-绿


Gemini 3 Pro Preview 的错误答案:A-绿B-黄C-蓝

人类怎么做这道题?从点出发,沿着线走到终点


三岁小孩用手指头比划一下就能做对

三岁幼儿做题痕迹,模型学不来

模型怎么做?输出一大段的推理过程,看起来很牛逼,但最后还是搞错了


最顶尖的模型,在最基础的视觉追踪上,一败涂地

这个评测在测什么

BabyVision 把视觉能力拆成了4大类,共22个子任务

大概是这些测试

精细辨别


分辨细微的视觉差异,比如找不同、补全拼图、数相同图案,共 8 个子任务

视觉追踪


跟随路径、线条与运动轨迹,比如走迷宫、连线、地铁图找站,共 5 个子任务

空间感知


理解三维结构,比如数方块、视角投影、折纸展开图,共 5 个子任务

视觉模式识别


识别逻辑与几何规律,比如旋转规律、镜像规律、逻辑推理,共 4 个子任务

这套测试有一个核心设计原则:严格控制语言依赖

题目要求很简单,答案必须靠视觉信息本身得出


如果一道视觉题可以完全用文字描述且不丢信息,它本质上就会退化成文本题,模型可以靠语言推理能力一路通关

BabyVision 要测的是:当语言帮不上忙的时候,模型还能不能「看懂」

然后结果就是:在BabyVision‑Full上,16 位至少本科背景的测试者完成全量 388 题,人类准确率达 94.1%,大多数模型只在 12~19%之间,具体如下

img

为什么模型会翻车

研究团队用了一个词:unspeakable

这些视觉题无法在不损失信息的情况下被完整语言化


模型试图把视觉压缩成 token,细节在压缩中消失

4类典型挑战:

挑战 1:「非语言细节」(Observing Non-Verbal Details)

拼图补全题

拼图/补全题里,选项差别可能只是一个微小边界、一个局部凸起、一个像素级错位

人类凭几何直觉,就能秒选

模型一旦把形状用语言概括成「像钩子两个腿差不多七八个六边形」,细节就被抹平,选项在 token 空间里变得几乎一样

挑战 2:追线追丢了(Manifold Understanding)

连线题

对于连线/绕线/轨迹之类的题,人类会始终锁定一条线,穿过交叉,一路追到终点

模型往往把线翻译成左/右/上/下的离散步骤,一遇到交叉点就出现分叉爆炸,容易换轨追错线

挑战 3:缺少真正的空间想象(Spatial Imagination)

三维方块题

三维方块计数、视角投影、遮挡下的结构判断


人类通常是把结构在脑中立起来,换个角度看,再数

模型容易犯两类错误:漏掉隐藏块投影关系搞错


所以嘛,大模型目前还是缺少稳定的 3D 内部表征与变换能力

挑战 4:图形规律归纳难(Visual Pattern Induction)

图形规律题

这类题,要求从少量视觉示例里抽象出规则,再迁移到新图

人类做的是关系映射,真正决定正确性的是「发生了什么变化」,具体的形状、颜色、绝对位置都可以变,只有它们的「身份」不变

模型常常盯着表面属性(颜色、形状),把「结构规则」误读成「外观统计」,导致迁移时幻觉规则

BabyVision-Gen

既然文本推理不够用,一个自然的想法:能不能让模型像孩子一样,用画、圈、连线、描轨迹来作答?

BabyVision-Gen 就是这个方向的尝试

从原基准中重新标注出 280 道适合「生成式作答」的题,要求模型输出图像或视频来表达解题过程

研究团队测了 Sora 2、Veo 3、Qwen-Image 等生成模型,比如用红线沿着从左上角图形延伸出的那条线,完整地描出其全程路径,下面这个是 Sora 的实现

这个,则是 NanoBanana 的

NanoBanana

初步结论:生成式推理在视觉追踪、精细辨别等 VLM 易翻车的任务上,出现了「更像人类」的行为

模型会真的去画轨迹、做标注,但整体仍然缺乏稳定,无法做到完全正确

把视觉推理「落地到视觉操作」上,可能是补齐短板的一条路

xbench 是什么

这个我得仔细说说,和 xbench 的朋友们可太熟了,一堆有趣的逗比,新模型出来后,我总是先去找他们去问,这东西靠谱么

xbench 是红杉中国 2025 年 5 月发布的 AI 评测基准


这是全球首个由投资机构主导,核心设计是双轨评估体系

AGI Tracking


验证模型在特定能力维度的智能边界,题目追求「足够难、巧妙、有区分度」

Profession-Aligned


把 AI 系统当作数字员工,放在具体业务流程中考察效用价值

已经发布的评测集包括 ScienceQA(研究生水平学科知识)、DeepSearch(中文互联网深度搜索)、招聘和营销两个垂类场景

BabyVision 是 AGI Tracking 系列的新成员,专门测多模态的纯视觉能力

Demis Hassabis 说过一句话:大模型可以在国际数学奥林匹克拿金牌,却会在小学几何题上出错;它能生成惊艳图像,却不理解杯子为什么不会飘在空中

BabyVision 就是把这个 gap 量化出来


xbench 的设计思路是 Evergreen Evaluation


持续维护、动态更新,每月汇报最新模型表现,每季度更新评估集

作为 AGI 赛道的投资者,红杉是有驱动力去要判断 AI 技术何时能达到市场可落地的阈值

传统评测集容易被刷爆,题目泄露导致过拟合,跟真实业务价值脱节,对于要投钱的事情,红杉更会以足够客观的方式去评估

开源地址

website:


https://xbench.org/

blog:


https://unipat.ai/blog/BabyVision

github:


https://github.com/UniPat-AI/BabyVision

huggingface:


https://huggingface.co/collections/UnipatAI/babyvision


AI 前线

学科架构

2026-1-13 19:47:15

AI 前线

红杉印度押注 900 万美金,这家 AI 公司如何让千亿美元市场研究行业"秒变高效"?

2026-1-13 19:47:22

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索