Gemini 2.5 计算机使用模型发布

本文介绍了谷歌的 Gemini 2.5 计算机使用模型,该模型是基于 Gemini 2.5 Pro 的视觉理解和推理能力构建的专业 AI 代理。此模型允许 AI 代理通过模仿人类的操作(如点击、打字和滚动)与图形用户界面 (UI) 交互,从而实现复杂数字任务的自动化,例如填写表格和操作交互元素。核心功能通过 Gemini API 中的 `computer_use` 工具开放,该工具在一个迭代循环中运行,模型分析屏幕截图和用户请求以生成相应的 UI 操作。该模型主要针对网页浏览器进行了优化,并在移动 UI 控制方面显示出强大的潜力,在多个网页和移动控制基准测试中展示了顶尖性能,以低延迟提供高精度。谷歌强调对安全负责的态度,将功能直接集成到模型中,并为开发者提供安全控制,例如每一步操作评估和高风险操作的用户确认。包括谷歌团队在内的早期测试人员已成功将该模型应用于 UI 测试、工作流自动化和个人助理,并报告了效率和可靠性的显著提高。该模型现已在 Google AI Studio 和 Vertex AI 上提供公开预览版。




Diagram of AI agent loop: Initial task leads to a screenshot/context, which is sent to the Model, which returns a response to the computer environment to execute an action.











Gemini 2.5 Computer Use Model flow



Benchmark performance table: Gemini 2.5 Computer Use leads in Online-Mind2Web, WebVoyager, and AndroidWorld benchmarks.











Gemini 2.5 Computer Use outperforms leading alternatives on multiple benchmarks



Latency vs. Quality scatterplot: Gemini 2.5 Computer Use is lowest in latency and highest in accuracy (70%+ accuracy, ∼225 sec latency).











Gemini 2.5 Computer Use delivers high accuracy while maintaining low latency


AI 前线

8 个月营收提高 4 倍,n8n 为什么是 AI Agent 最受欢迎的搭建平台?

2025-12-22 21:58:27

AI 前线

七大 MCP 支持的主流 AI 框架大盘点

2025-12-22 21:58:57

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索