本文全面分析了 2025 年 AI 浏览器领域的代表性产品:ChatGPT Agent、Fellou、Perplexity Comet 和 Arc Dia。文章指出,AI 技术正将传统浏览器从“信息展示者”转变为“智能数字助手”,推动互联网交互模式从“搜索-点击-浏览”向“对话-执行-完成”的根本性转变。作者从技术架构(AI 原生、深度集成、插件)、性能基准测试(如 Humanity's Last Exam、DSBench 等)和实际电商导购场景的体验进行详细对比。结果显示,ChatGPT Agent 在多项基准测试中表现出色,但执行速度较慢;Fellou 以其高效和低成本脱颖而出,但准确性有待提升;Perplexity Comet 聚焦 AI 搜索和上下文感知,但数据透明度不足;Arc Dia 则追求极简主义和学习场景优化。文章强调,当前 Web Agent 行业在评测标准化方面尚不成熟,多数产品缺乏公开的基准测试数据。整体而言,文章为读者提供了 Web Agent 领域的深度洞察和产品选型参考。
想象一下,当你对着浏览器说"帮我在淘宝闪购上点个和昨晚相同的晚餐,记得先在首页上领个券",它居然真的开始工作了——点击、搜索、填表、下单,一气呵成。这不是科幻电影,而是2025年正在发生的现实。
传统浏览器正在"进化"成会思考、能干活的数字助手,一场关于Web-Agent的技术革命正在悄然改变我们上网的方式...


背景:从“看客”到“助手”
30多年来,浏览器一直扮演着"忠实观众"的角色——它只负责展示网页,剩下的都要你亲自动手。但 AI 的到来彻底打破了这种格局。突然间,浏览器开始"长脑子"了,不仅能理解你的需求,还能代替你执行复杂的网上操作。
2025年被业界誉为“AI Agent元年”,Web-Agent(网页智能代理)正以前所未有的速度重塑着我们的数字化工作和生活方式。从前天凌晨发布的OpenAI的ChatGPT Agent到中国团队打造的Fellou,从Perplexity的Comet到The Browser Company的Dia,一场围绕浏览器入口的AI革命正在悄然展开。
Web-Agent作为AI技术与浏览器深度融合的产物,正在推动互联网交互模式从"搜索-点击-浏览"向"对话-执行-完成"的根本性转变。实现流程自动化与复杂任务的委托。这不仅降低了专业门槛,也将为个人和企业带来实实在在的效率红利。
恰逢Comet浏览器送来入场门票,结合近几天的实际体验和网上的权威评测,本文将从产品特性、技术实力和商业模式进行对比,以期对当前最热门/高水准的Web-Agent(通用)产品进行一个大评比。


四大“网红”产品登场

从技术发展时间线来看,Web-Agent经历了从概念验证到产品化的快速演进。2024年9月OpenAI首次发布Operator研究预览版,随后各大厂商纷纷跟进,形成了当前百花齐放的竞争格局。
▐ ChatGPT Agent:统一代理系统的集大成者
2025年7月17日,OpenAI祭出了自己的王牌——ChatGPT Agent。这不是简单的浏览器插件,而是一个野心勃勃的"统一代理系统",将之前的Operator网站交互能力、Deep Research信息整合能力和ChatGPT对话能力融为一体。

该系统的工作流程遵循经典的感知—推理—执行模式:感知层通过多模态输入处理器解析网页DOM结构、视觉元素和文本内容;推理层基于o3系列模型进行任务分解和决策规划;执行层通过四种工具(可视化浏览器、文本浏览器、终端、API访问)完成具体操作
在技术表现上,ChatGPT Agent在最具挑战性的Humanity's Last Exam测试达41.6%的准确率,大约是其他AI模型的两倍。在数学基准FrontierMath中,当有工具支持时,成功率更是飙升到27.4%,远超此前6.3%的最佳纪录。
更重要的,ChatGPT Agent拥有自己的"虚拟计算机",在沙盒环境中安全执行任务,避免了直接操控用户浏览器可能带来的安全风险。
看看详细基准测试性能表现(各评测集的说明见下方表格):

-
Humanity's Last Exam:准确率达41.6%,相比Deep Research的26.6%提升了56%。当采用并行八路推理策略时,成绩进一步跃升至44.4%
-
DSBench:分析准确率达89.9%,显著超过人类基线的64.1%;在数据建模任务中达到85.5%,同样超越人类的65.0%表现。这一成果标志着AI首次在复杂数据科学工作流中超越人类专业水平。
-
SpreadsheetBench:得分45.5%,超过Copilot in Excel的20%,但仍与人类水平(71.3%)存在一定差距。这一数据为企业级应用提供了重要的性能参考基准。
-
WebArena:基准测试中,ChatGPT Agent在复杂网页交互场景下达到65.4%的完成率,超越了o3驱动的CUA模型,但仍低于人类的78.2%水平。这一结果表明,虽然系统在自动化网页操作方面已具备实用价值,但在处理复杂交互逻辑时仍有提升空间。
-
BrowseComp:测试专门评估Agent在网络环境中查找难以获取信息的能力。ChatGPT Agent在此项测试中创造了68.9%的新纪录,比Deep Research高17.4个百分点。
|
Benchmark |
评估目的 |
任务类型/特点 |
应用模拟场景 |
|
Humanity’s Last Exam |
测试 AI 在多学科专家级问题上的回答能力 |
高难度、跨学科问答(如法律、医学、金融等) |
通用智能、多领域专业问答 |
|
DSBench |
测试数据科学任务处理能力 |
数据分析:清洗、计算、趋势识别 数据建模:建模、特征处理、评估 |
数据分析师日常任务 |
|
SpreadsheetBench |
评估电子表格编辑能力 |
函数计算、表格布局、数据透视、公式引用等 |
办公自动化、财务数据处理 |
|
Investment Banking Benchmark |
模拟投行分析师建模能力 |
财报建模、LBO 模型、财务公式、行业规范等 |
投行分析师(1–3年经验)工作场景 |
|
WebArena |
测试网页操作能力 |
实际网页任务,如购物下单、表单提交、多页导航 |
浏览器 Agent 操作能力 |
|
BrowseComp |
测试难查信息的网络检索与整合能力 |
多跳搜索、信息比对、网页深度浏览与整合 |
信息调研、竞争分析、专家助理任务 |
▐ Fellou:效率狂魔的中国奇迹
如果说ChatGPT Agent是技术全才,那么来自中国95后创业者谢扬团队的Fellou就是效率专家。这款被称为"全球首个Agentic Browser"的产品,最大的卖点就是一个字——快。

Fellou的数据让人眼前一亮:平均任务完成时间仅需3.7分钟,比同类产品提速3-5倍;单次任务成本控制在0.3-3元人民币,不足行业均值的1/3;最关键的是,在Online-Mind2web基准测试中,Fellou 2.0版本的成功率从31%跃升到80%,实现了158%的性能提升。
谢扬在接受采访时透露,Fellou的秘密武器是自研的Eko框架,这个"生产级可干预"的系统支持实时任务监控,允许人工或AI随时介入调整,确保任务执行的可靠性。
核心优势:
-
Deep Action功能:用户仅需自然语言指令,平均任务耗时仅3.7分钟,较同类产品提速3-5倍;
-
执行成本优势:单次任务执行费用在0.3-3元人民币,不足行业均值的1/3;
-
Eko框架:自主研发的浏览器使用框架,网页操作速度提升2.83倍。
用户评价与反馈:
60名用户的综合评测显示,Fellou在准确性、可读性、思考深度等维度均超越Deep Research、Manus和Perplexity等竞品。特别是在复杂工作流自动化场景中,如行业调研报告生成,Fellou表现尤为突出。
▐ Perplexity Comet:搜索巨头的豪赌
作为AI搜索领域的独角兽,Perplexity推出的Comet浏览器将其搜索优势延伸到浏览器领域。该产品于2025年7月正式发布,目前仅对Max订阅用户(月费200美元)和逐步开放邀请用户。

Comet最大的特色是将传统搜索结果转化为结构化的AI回答,用户不再需要在一堆蓝色链接中寻找答案。其Comet Assistant可以总结邮件、管理日历、导航网页,甚至能理解所有打开标签页的内容,实现真正的"上下文感知"。更有野心的是,Perplexity CEO Aravind Srinivas透露,公司正与三星、苹果等手机制造商谈判预装合作,意图从根本上改变用户的默认搜索习惯。
产品特色:
-
原生AI搜索:Perplexity搜索引擎作为默认选项,提供AI生成的搜索摘要;
-
Comet Assistant:侧边栏AI助手能够自动化网页任务,如总结邮件、管理日历等;
-
上下文感知:能够理解打开标签页的内容,实现跨页面的智能交互。
Perplexity Comet采用基于Chromium的混合架构,将轻量级神经网络(如量化的Llama 3变体)部署在本地处理基础任务,复杂查询则通过云端API处理。这种设计在确保响应速度的同时,提供了强大的搜索和信息整合能力。
▐ Arc Dia:极简主义的AI伴侣
与前几位"重装上阵"的竞争对手不同,The Browser Company的Dia选择了一条截然不同的路径——极致简洁。

Arc团队从Arc的"萨克斯风"复杂性转向Dia的"钢琴"简洁性,代表了设计哲学的根本转变。Dia采用传统的横向标签页布局,将AI深度集成到每一个交互环节。实际使用数据显示,Dia的核心功能使用率远超Arc:与标签页聊天功能有40%的日活用户使用,个性化设置功能达到37%。相比之下,Arc的多空间功能使用率仅为5.52%,悬停日历预览更是低至0.4%。
设计理念:
-
回归简洁:采用传统横向标签页布局,降低用户学习成本;
-
对话式交互:右侧边栏集成ChatGPT式聊天界面,随时可与网页内容对话;
-
学习场景优化:特别针对教育和学习场景进行优化,支持YouTube时间戳提取、论文分析等功能。

产品能力大比拼
▐ 量化评估对比
产品发布前后,官方声明、学术报告和第三方评测均会进行各类型的测评/问卷。除前文已提及到基准测试数据,其他量化数据如下:

注:✅=官方权威文档/媒体测评中明确支持,⚪=部分支持/有功能但非核心能力,❌=无/未见官方明确声明,🔲=有限/实验性
ChatGPT Agent
-
企业采用率:83%周活跃用户
-
用户满意度:98%员工偏好
-
效率提升:10倍更快产品洞察
Fellou
-
速度优势:比OpenAI快3.1倍
-
版本升级:2.0版本提升1.3-1.5倍
-
任务成功率:从31%提升至80%
-
平台支持:50+平台自动化
其他产品数据缺口
-
Comet:缺乏官方基准测试数据
-
Dia:仅有BrowserBench评分27-30分,其余数据待验证
不同来源的数据具有不同的可信度等级,还需要分析各产品数据来源的权威性分布,对产品的可靠程度进行评估。我将已有的公开数据扔给AI,建立标准化评分体系,从透明度、可靠性和验证程度三个维度对各产品进行量化评估,得出结论如下表。

可以看到除ChatGPT Agent外,其他三款产品均未参与或公布标准化基准测试结果,ChatGPT Agent以90分的总分领先,Fellou获得52分位居第二,而Comet和Dia的评分均低于20分,反映了严重的数据透明度不足问题,反映了Web Agent行业在评测标准化方面的不成熟。
▐ 实际体验对比

整体使用流程如上图所示,由LLM拆分任务作出规划后,综合DOM/页面图片进行环境感知和下一步操作,但在任务进度反馈、用户接管控制和交互体验上有稍许差异。
前面那么多数据都只能看看,直接拿一个电商导购的CASE做个测试:
帮我选购一个嵌入式冰箱,双循环,容量600升,尺寸100cm×70cm×60cm。预算10000元以内1.尽量多从小红书,bilibili,知乎等一系列网站中获取评测和推荐信息2.需要直接给出电商网站的购买链接3.多参考电商网站上的用户购买评价,避免那些差评多或者无评价的商品4.优先考虑 海尔 卡萨帝 美的 容声 小米 西门子等大品牌
-
ChatGPT Agent
虽然功能强大,但15-30分钟的复杂任务执行时间对用户耐心提出了挑战。
|
关键过程 |
最终结果 |
|
|
|
-
使用体验:可自动抓取网页数据作为输入信息源。部分任务中,仍需用户登录授权、处理验证码等。
-
测试显示:长流程(如网页比价、收集店铺信息)会出现等待或动作失败,需要偶尔介入手动。
-
错误恢复:允许用户随时中断任务并接管控制。
-
优点:任务分解有逻辑,数据迁移准确,支持Google、Maps等集成。
-
不足:执行速度偏慢、部分交互需手动接力,有Bug需关注。
-
Fellou
|
关键过程 |
最终结果 |
|
搜索各个平台的评测、用户反馈和产品信息,多窗口实时展示浏览器页面状态
点击Taskover operation后新开tab,用户可手工介入操作
用户登录之前,相关窗口会停止等待,用户完成后点击Done,远程浏览器继续操作
|
详见:https://chat.fellou.ai/report/aa1fb46c-e2f1-4c88-96f6-e443e021b607
|
-
评测体验:多窗口可视化展示浏览器操作过程,若网页登陆态及其他表单填写出现问题时,会及时提醒用户介入,使用体验较好。
-
错误恢复:提供了良好的人工干预机制,Hook系统还支持实时任务监控和动态调整。
-
速度:数据搜集阶段是对多个相关网页进行数据抓取,耗时较低,但在信息整合和汇总上花费时间较多,总时长接近22分钟。
-
劣势:个别复杂网站兼容性仍需优化,对新手用户初学成本略高。
-
准确度:较低,这个case的最终报告甚至没有给出商品购买链接(中间过程有)。
-
Comet
|
关键过程 |
最终结果 |
|
|
|
-
实际应用:AI助手可自动提取网页关键信息,辅助会议安排、填报表单,并可通过截图功能透明化操作流程。
-
优点:与日常办公工具整合紧密,UI体验友好,侧边栏与新标签页均可快捷调用AI agent,适合轻量、周期性任务自动化。而且执行速度快,从多渠道的信息收集到最终的报告整合,执行速度非常快。
-
不足:涉及不同网站的登录或其他拦截,若用户未及时手工干预,则会跳过该页面的处理。目前没有看到允许用户配置跳过规则。
-
Dia
|
关键过程 |
最终结果 |
|
|
|
-
评测体验:界面清爽、响应快速,原生构建而非后期添加AI功能,AI交互更加直观自然
-
优点:地址栏直接支持AI对话,无需学习额外的交互模式
-
劣势:仅支持Mac平台缺乏浏览器扩展支持,功能相对有限,且没有尝试解决登录/表单填写等拦截操作,作为Beta产品,功能完整性不足。
这里再额外给出网友综合OpenAI官方任务和社区需求,进行的带任务难度分级的多任务完整评测,如下图:
难度评级见:https://claude.ai/public/artifacts/d7d22bee-9e85-4e18-a38a-1e4b8bba23a3


详细报告来源:https://zw73xyquvv.feishu.cn/wiki/XeZxw1CUVihUB0kmL0Jcds4wnA0

技术实力大比拼
当前Web-Agent产品的技术实现主要分为三种模式:
-
AI原生架构:从底层重构浏览器,将AI作为核心交互方式,如Comet、Dia、ChatGPT Agent
-
深度集成AI:在传统浏览器内核上深度整合AI能力,如Microsoft Edge、夸克浏览器
-
引入AI插件:通过插件形式引入AI功能,如Brave Leo、QQ浏览器
本文所涉的四大产品均采用第一种模式,将AI融入了其核心交互流程之中。

▐ 技术架构对比
-
ChatGPT Agent
ChatGPT Agent最大的技术特色就是完全云端化的虚拟机执行环境,所有操作都在OpenAI的受控环境中完成。这种沙盒化设计不仅确保了操作安全性,更重要的是实现了上下文的完整保存——即使用户中途打断或改变指令,系统也能断点继续,而不会丢失进度。

全网没找到ChatGPT Agent的技术架构图,没有胆量自己画,拿年初发布的Operator凑个数~~
核心技术特色:
-
模型基础:基于GPT-4o结合Computer-Using Agent (CUA)技术
-
执行环境:云端虚拟计算机,支持视觉浏览器和文本浏览器双模式
-
安全机制:内置权限控制,关键操作需用户确认
-
智能工具箱:配备四种工具并能根据任务需求自动选择(可视化浏览器、文本浏览器、终端和API访问)
-
API集成:支持Gmail、GitHub等第三方服务连接器
主要优势:
-
强大的安全沙盒机制,避免恶意代码执行
-
丰富的OpenAI生态系统支持
-
多模态能力(文本、图像、代码生成)
技术限制:
-
网络延迟影响响应速度
-
无法访问用户本地资源
-
依赖OpenAI平台的可用性
-
Fellou
采用了创新的Deep Action技术和混合架构设计。自研的"混合影子空间"(Hybrid Shadow Workspace)技术通过虚拟化容器技术,支持后台并行处理多个任务窗口,同时共享Session信息实现免登录访问。用户可以在正常浏览过程中,让AI在"影子空间"中悄无声息地完成复杂操作。官方数据显示其执行速度比手动操作快5.2倍。

来源:https://fellou.ai/eko/docs/architecture/
核心技术特色:
-
混合架构:本地文件访问结合云端深度搜索
-
并行执行:支持最多5个影子浏览器同时工作
-
Eko框架:支持自然语言工作流定义
-
跨平台集成:支持50+平台的自动化操作
开发优势:
-
Eko SDK提供完整开发框架
-
本地文件系统直接访问
-
高度可定制的执行环境
-
支持拖拽式逻辑定义
-
Perplexity Comet
Comet基于Chromium内核,将Perplexity的AI搜索能力无缝集成到传统浏览器体验中。其设计理念是提供"认知操作系统"级别的浏览体验,而非完全替代现有工作流。
技术架构特点:
-
Chromium基础:完整的Chrome扩展生态兼容
-
AI助手侧边栏:实时页面分析和任务执行
-
上下文感知:能够理解多标签页内容并进行整合
-
企业集成:支持Outlook等办公工具连接
-
Dia
与其他产品不同,Dia从设计之初就将AI作为浏览器的核心交互方式,而非附加功能,且本地集成方式在响应速度上表现最佳。
核心技术特色:
-
AI原生设计:地址栏直接支持AI对话,无需额外插件
-
跨标签感知:能够理解和分析所有打开标签页的内容
-
Skills系统:用户可创建自定义AI技能,如写作助手、代码生成器等
-
记忆功能:保持7天浏览历史的上下文记忆,提供个性化响应
技术架构优势:
-
Chromium基础:保持与Chrome相似的界面和兼容性
-
本地处理:数据在本地加密存储,仅在必要时临时发送到服务器
-
智能路由:自动识别用户意图,在搜索、导航和AI对话间无缝切换
-
个性化学习:根据用户使用习惯调整AI响应风格和内容偏好
独特功能:
-
上下文写作:能够模仿特定网站的写作风格生成内容;
-
多标签分析:同时分析多个产品页面并生成对比报告;
-
Skills自定义:支持用户创建个性化的AI工具,如自动填表、内容摘要等。
▐ 能力维度分析
-
综合维度对比

从六个核心技术维度对比四款产品,除开准确性,数据有点点主观(经过AI的review):
-
ChatGPT Agent在AI集成度和生态完整性方面领先,得益于OpenAI强大的模型能力和生态系统;
-
Fellou在自动化程度和执行效率方面表现最佳,体现了其工程化的优势;
-
Perplexity Comet在搜索准确性方面独有优势,但在自动化能力上相对较弱;
-
Arc Dia专注用户体验优化,但在复杂任务执行能力上有待提升。
-
安全水位对比
-
ChatGPT Agent:云端执行提供了最高级别的沙盒安全,但增加了数据传输的隐私风险;
-
Fellou:本地执行提供了更好的数据控制,但需要处理本地安全威胁;
-
Comet:基于浏览器标准安全模型,相对平衡;
-
Dia:本地数据加密存储,服务器处理时间仅为毫秒级,在隐私和功能间取得良好平衡。
-
性能测试对比

-
开发者生态与接入门槛对比
-
Comet:最低学习成本,Chrome扩展开发模型
-
ChatGPT Agent:中等复杂度,依赖OpenAI API生态
-
Fellou:最高技术门槛,但提供最大自定义空间
-
Dia:相对较低接入门槛,扩展与定制能力集中在 Skill 技能和自动化命令层面,不支持传统浏览器扩展市场的海量标准插件,但自定义脚本易于上手。

商业模式大比拼
Web-Agent的兴起不仅是技术革命,更是商业模式的深度重构。传统浏览器依靠广告和流量变现的模式正在被颠覆。四个产品恰好代表了AI智能体市场的不同发展方向和商业模式创新。
▐ 核心要素对比
-
定价策略差异化
四个平台采用了截然不同的定价策略,反映了其市场定位和商业目标:
-
ChatGPT Agent采用分层订阅模式,从Plus用户的20美元/月到Pro用户的200美元/月,未来计划推出面向企业的高端智能体服务,价格可能达到2000-20000美元/月。这种定价策略体现了OpenAI从工具提供商向价值交付者的战略转变。
-
Comet定位高端市场,Max订阅用户需支付200美元/月,体现了Perplexity对AI搜索价值的高度自信。该平台通过与手机厂商的预装合作寻求规模化增长。
-
Fellou创新性地采用按任务付费模式,单次任务成本控制在0.3-3元人民币之间,显著低于同类产品。这种灵活的定价模式降低了用户使用门槛,有助于快速获得市场认可。
-
Dia目前完全免费,采用邀请制测试策略,旨在通过简化的用户体验吸引大众用户,为未来的商业化奠定用户基础。
-
定位策略差异化
四个平台的目标市场定位形成了完整的市场覆盖:
-
高端专业市场:ChatGPT Agent和Comet主要面向企业用户和专业人士,提供高价值、高复杂度的AI服务
-
商业专业用户:Fellou专注服务商业专业人士,通过创新的按使用付费模式平衡价值与成本
-
大众消费市场:Dia定位普通消费者,追求简单易用的AI集成体验
-
商业化路径差异化
四个平台的商业化路径体现了不同的战略思考和市场判断:

短期策略(2025年)
-
ChatGPT Agent:完善订阅服务体系,扩大企业客户群
-
Comet:推进手机预装合作,建立移动端竞争优势
-
Fellou:优化按使用付费模式,开发者平台建设
-
Dia:专注用户增长,完善产品功能
中期规划(2026-2027年)
-
ChatGPT Agent:推出专业化智能体服务,进军高端企业市场
-
Comet:整合广告和电商收入,实现收入多元化
-
Fellou:建立智能体生态市场,实现平台化发展
-
Dia:引入付费功能,启动数据价值变现
长期愿景(2027年以后)
-
所有平台都将向更加多元化的收入结构发展,包括订阅服务、广告收入、数据洞察、平台佣金等多种模式的结合。
▐ 市场竞争格局
-
竞争定位和差异化策略
在AI浏览器/智能体市场中,四个平台形成了清晰的差异化竞争格局:

-
ChatGPT Agent凭借OpenAI的技术优势和先发优势,占据市场领导者地位。其高复杂度、中高价格的定位使其成为企业级AI解决方案的标杆。
-
Comet作为搜索领域的挑战者,通过高价格、高复杂度的策略,试图在AI搜索细分领域建立竞争壁垒。
-
Fellou作为创新型新兴企业,通过中等复杂度和灵活定价策略,在市场中寻找差异化生存空间。
-
Dia采用低复杂度、低价格的大众化策略,试图通过简化用户体验获得规模化优势。
-
市场机遇和潜力

浏览器其实是一个非常古老的领域了,未来发展潜力主要由以下因素驱动:
-
技术成熟度提升:AI模型能力不断增强,用户接受度提高;
-
市场需求增长:企业数字化转型加速,对AI工具需求旺盛;
-
传统浏览器市场饱和:Chrome等传统浏览器市场份额稳定,为AI浏览器提供了创新空间
美国司法部要求谷歌出售Chrome的背景下,为新兴AI浏览器提供了机遇窗口。OpenAI、Perplexity等公司都表示有意收购Chrome。

技术挑战与发展趋势
▐ 当前面临的技术挑战
可靠性
目前多数产品的任务成功率仍有提升空间。即使是表现最佳的Fellou 2.0版本,任务成功率从31%提升到80%,但距离生产环境的严格要求还有差距。更复杂的是,Web-Agent经常会遇到验证码、动态内容、复杂表单等"拦路虎"。
最新的WebBench基准测试显示,即使是SOTA级别的浏览器代理,在写操作密集型任务(如登录、表单填写、文件下载)中的成功率也仅为46.6%。相比之下,读操作任务的成功率普遍超过75%。
基础设施问题仍然是影响性能的主要障碍,包括代理服务器限制、验证码挑战、登录认证复杂性等。这些技术壁垒直接影响了Web-Agent在真实网络环境中的实用性。
安全性
Web-Agent需要访问用户的敏感数据和执行网络操作,这带来了前所未有的安全风险。OpenAI为此专门开发了针对"提示注入"攻击的防护措施,并建立了专门的监控模型来监视可疑行为,并将安全工程团队从1人扩展至5人。
Perplexity Comet采用三层数据策略:本地处理敏感操作、伪匿名云端处理非敏感任务、需要明确用户同意的完全云端操作。这种分层处理机制在保护隐私的同时确保了功能完整性。
成本控制
大模型推理成本依然高昂。Perplexity Comet月费200美元的定价,在某种程度上反映了当前技术的成本结构。如何在保证服务质量的同时控制成本,是所有厂商都必须面对的现实问题。
▐ 未来发展趋势
历史总是惊人的相似。从90年代的Netscape与IE之争,到2000年代Chrome的异军突起,浏览器市场每隔十几年就会迎来一次大洗牌。如今,AI的到来再次点燃了这个战场。
多模态融合
随着视觉、语音等多模态AI技术的发展,Web-Agent将支持更自然的交互方式。用户可以通过语音指令、手势控制,甚至是眼神追踪来与浏览器交互。基于WebML API的硬件加速矩阵运算已经在支持的GPU上实现了本地推理能力。
垂直化发展
IDC预测,垂直AI Agent的市场规模将是传统SaaS市场的10倍。未来的Web-Agent将更多聚焦特定行业和场景的深度优化,而不是大而全的通用能力。
边缘化部署
为了降低延迟和成本,越来越多的Agent能力将部署在边缘设备上。Opera的Browser Operator就强调其本地化执行的安全优势。

日常选型建议
▐ 场景适用性矩阵

这个热力图矩阵清晰展示了四款产品在不同应用场景下的适用性评分。色彩解读说明如下:
-
深绿色:该产品在此场景下表现最佳,强力推荐
-
浅绿色:产品功能匹配良好,推荐使用
-
黄色:基本功能满足,可以考虑使用
-
浅红色:不太适合此场景,建议选择其他产品
▐ 产品定位象限分析

象限定位解读:
右上象限(高自动化 + 高复杂度)
-
Fellou:技术专家首选,最高执行效率(5.2x速度)
-
ChatGPT Agent:企业级全栈解决方案,功能最全面
左下象限(智能辅助 + 简单易用)
-
Dia:个人用户理想选择,AI原生体验最佳
-
Comet:平衡实用,适合快速上手和渐进式集成

写在最后:一个新时代的序幕
当我们回望2025年这个被称为"AI Agent元年"的时刻,或许会发现这是互联网发展史上的又一个转折点。浏览器从简单的网页展示工具,进化成能思考、会行动的智能助手,这种转变的意义远不止于技术本身。
它代表着人机交互模式的根本性改变——从"人适应机器"到"机器理解人",从"点击驱动"到"意图驱动"。当你可以直接告诉浏览器"帮我处理明天的行程安排"时,那种体验的飞跃是难以言喻的。
当然,这个新世界也充满了不确定性。谁能最终胜出?传统巨头能否守住阵地?创新者能否撼动既有格局?所有的答案都还在路上。但有一点是确定的:浏览器确实"成精"了,而且这只是开始。在这个AI驱动的新时代,每一次点击都可能改变我们对未来的想象。

团队介绍
本文作者扬君,来自淘天集团-供给技术团队。本团队是淘天技术中支撑运营、商家和行业商业模式的技术团队,承载了「技术驱动商业革新」的使命。团队支撑的业务能力覆盖电商全链路,从产业分析到智能运营决策,从商家经营自动化到生态创新,从行业消费者体验提升到产业链模式创新,覆盖了服饰、快消、消电、企业服务等各个行业,构建着智能驱动的商业革新引擎。
