社区投稿 | Clawdbot:技术架构与国产软件生态适配分析

文章首先介绍了 2026 年初爆火的开源项目 Clawdbot,这是一个主打“本地优先”和“隐私受控”的个人 AI 网关。其核心架构由控制平面(Gateway)、执行平面(Pi Agent)、接入层(多渠道集成)和知识扩展层(Skills)组成,支持将 AI 能力无缝嵌入 WhatsApp、Telegram 等通信工具。随后,文章重点分析了该架构在国产生态下的适配潜力:认为飞书、企业微信和钉钉由于具备完善的官方 API,是适配价值最高且技术难度较低的通道;而个人微信因合规和封号风险,不建议协议级接入。此外,文章还探讨了将 WPS、腾讯会议及国产 AI 搜索(如博查、U 深搜)集成到工具层的方案,为构建适配国内环境的私人 AI 助理提供了清晰的技术路径。




PSPDFKit/Nutrient 创始人 Peter Steinberger 开源了个人 AI 网关项目 Clawdbot,核心致力于打造可自托管、跨平台交互的本地优先型 AI 助理,实现“AI能力嵌入现有通信场景、数据完全自主掌控”的核心目标。该项目自2026年1月推出后迅速引爆开发者社区,短短数周内 GitHub 星标量突破40K+,单日最高涨星9000+,同时斩获4.6K+ forks,成为年初最热门的开源 AI 项目之一,其“单网关+多渠道”架构为本地 AI 助理落地提供了全新范式。

作为开源个人 AI 网关,Clawdbot 的核心价值在于打破传统 Chatbot 的平台依附性,通过内置的多渠道适配器与 WebSocket 控制平面,实现 WhatsApp、Telegram、Discord 等海外通信工具与本地 AI 大脑的统一对接。其架构核心为单进程网关服务,集成平台连接器、AI Agent RPC 通信模块、Web UI 配置面板三大核心组件,支持持久化会话管理、主动消息推送与跨平台媒体处理,所有数据均运行于个人基础设施,从根源保障隐私安全。

尽管架构设计极具创新性,但原版 Clawdbot 深度绑定海外生态,对国内开发者落地形成显著壁垒。基于其开源架构的可扩展性,本文聚焦两大核心方向展开国产适配分析:一是技术架构层面的改造,基于现有插件化渠道适配器,开发飞书、钉钉的专属适配模块,通过对接企业级 API 实现组织架构同步、审批流联动与消息回调,同时优化本地模型接入配置,解决 Ollama/LMStudio 与国产模型的兼容性问题;二是合规与场景适配,针对个人微信的第三方接入规范,设计基于官方开放能力的间接交互方案,规避合规风险,同时适配国产化操作系统与硬件环境,优化资源占用以适配个人终端部署。

依托 Clawdbot 的开源基础,国产化适配的核心价值在于保留“本地数据主权”的核心优势,同时打通国内主流办公与社交场景。后续将进一步拆解渠道适配器的接口规范、本地模型的配置优化细节,以及企业级平台适配的权限管控方案,为构建适配国产生态的私人 AI 助理提供完整技术参考。

Clawdbot 完整技术架构梳理 

Clawdbot 是一个运行在你个人设备上的私人 AI 助手,设计目标为随时可用、注重隐私,并集成到现有的沟通工作流中。与需要专用应用程序或 Web 界面的基于云端的助手不同,Clawdbot 在你日常使用的渠道上为你提供服务——包括 WhatsApp、Telegram、Slack、Discord、Signal、iMessage、Microsoft Teams 等——同时保持对数据和配置的本地控制。

社区投稿 | Clawdbot:技术架构与国产软件生态适配分析

图1Clawdbot交互演示:通过WhatsApp实现的本地AI助手对话

从设计思路上,Clawdbot 本质是一个本地优先的 AI 网关(AI Gateway)+ 多端助手,而不是单纯的一个机器人程序。该系统基于一个简单的原则运行:单用户、个人基础设施、多渠道访问。这意味着你在 macOS、Linux 或通过 WSL2 运行的 Windows 上部署一次 Clawdbot,将其连接到你选择的消息平台,并通过熟悉的界面与你的 AI 助手交互。无论你是在手机上向 WhatsApp 发送消息,在桌面上使用 Discord 聊天,还是通过浏览器使用 Web 仪表板,所有交互都通过你的个人 Gateway 实例流转——将对话、上下文和配置完全保留在你的控制之下。

顶层架构概览

Clawdbot 的架构围绕一个 Gateway 守护进程 展开,它是所有渠道连接和 AI 交互的唯一真实来源。该设计确保了所有连接平台的状态管理、配置集中和日志记录的一致性。Gateway 提供两个主要接口:用于与移动应用和扩展进行实时通信的 WebSocket 控制平面,以及用于基于浏览器的 Control UI 和 Canvas 主机的 HTTP 服务器。

该架构遵循消息路由模式,来自不同渠道的传入通信被标准化为通用格式,通过 Agent 系统处理,然后将响应传回原始渠道。这一抽象层使 Clawdbot 能够支持多样的消息协议,同时保持所有平台上一致的 Agent 行为和会话管理。

可以概括为四个层次:

  • 控制平面(Control Plane) :Gateway WebSocket 控制平面

  • 执行平面(Execution Runtime) :Pi agent 本地运行时 + 各类工具(Browser、Canvas、Nodes…)

  • 接入层(Channels & Apps) :各类消息通道(WhatsApp/Telegram/Slack/Discord…)和客户端(macOS/iOS/Android)

  • 知识与扩展层(Workspace & Skills) :本地工作区、技能系统、ClawdHub 插件生态

整体消息/任务流可以抽象为:

通道消息 → Gateway(会话路由 & 策略) → Agent(调用模型+工具)→ 工具执行(浏览器/系统/第三方) → 返回结果 → Gateway → 原通道回复

控制平面:Gateway WebSocket Network

Gateway 是 Clawdbot 的“大脑中枢” ,负责:

统一的 WebSocket 控制平面 :

  • 管理所有客户端、通道、工具与事件

  • 对外暴露统一的 WS 接口,作为“单一来源的真相(single control plane)”

会话与路由:

  • 多会话模型(main 会话、群组隔离、激活模式、排队模式等)

  • Multi-agent routing:可以把不同通道/群/联系人路由到不同的 Agent(不同工作区和人格)

状态与调度:

  • presence / typing / usage tracking

  • cron 任务与 wakeups

  • Webhook 事件转发

运维:

  • Control UI / WebDashboard

  • Doctor(迁移/健康检查)、日志

  • 支持 Tailscale Serve/Funnel、SSH 隧道,实现远程访问本地 Gateway 的 Dashboard

技术栈 :

  • Node.js ≥ 22,TypeScript 实现

  • 通过 pnpm/npm/bun 安装和运行

  • 默认运行为守护进程(daemon),长期在线

执行平面:Pi Agent Runtime + 工具系统

3.1 Pi Agent Runtime(“执行节点”)

通过 RPC 模式 与 Gateway 通信:

  • 支持工具流(tools streaming)和块流(chunk streaming)

负责 实际执行任务 ,包括:

  • 调用 LLM(云模型或本地模型)

  • 执行系统命令(system.run)

  • 操控浏览器(Browser control)

  • 调用节点能力(摄像头、屏幕录制、通知等)

可以理解为:Gateway 负责“指挥和调度”,Pi Agent 负责“干活”。

3.2 工具体系(Tools & Automation)

核心工具类型包括:

Browser control :

  • 管理本地的 Chrome/Chromium 实例

  • 通过 CDP(Chrome DevTools Protocol)控制页面导航、点击、表单填写、截图等

Canvas / A2UI / Live Canvas :

  • AI 双向驱动的可视化工作区

  • 可以让 Agent 在“画布”上规划任务、展示结构化数据、做可视化操作

Nodes :

  • 本地节点能力:摄像头快照/录制、屏幕录制、地理位置、系统通知

  • macOS 特有能力:system.run/system.notify 等

Cron + Wakeups :

  • 定时任务调度,周期性执行脚本或检查

Webhooks & Gmail Pub/Sub 等 :

  • 外部事件源订阅,触发内部工作流

Skills 平台 :

  • 将 CLI 工具、脚本、甚至第三方 API 封装成统一的“技能”接口

接入层:多通道、多终端

4.1 多渠道消息集成 Channels(消息通道)

Clawdbot 的优势在于其广泛的渠道支持,使你能够通过适合你工作流或设备偏好的任何消息平台与 AI 助手交互。核心渠道直接内置在主应用程序中,而其他平台则通过模块化插件系统提供,允许社区贡献和自定义集成。

当前官方主要支持 海外生态 :

社区投稿 | Clawdbot:技术架构与国产软件生态适配分析

特点:

Multi-channel inbox :统一收件箱

Group routing & Channel rules :按群/通道配置策略:

  • 哪些群允许机器人响应

  • @ mention 触发 vs。 全量监听

  • 私信(DM)策略:默认需要 pairing approve

4.2 Apps + Nodes(平台客户端)

macOS app :

  • 菜单栏控制

  • Voice Wake / Talk Mode(语音唤醒与对话悬浮窗)

  • WebChat / 调试工具

  • 作为 node 暴露 system.run/system.notify 等能力

iOS node :

  • Canvas、Voice Wake、Talk、摄像头、屏幕录制等

Android node :

  • Canvas、Talk、摄像头、屏幕录制,可选短信能力

Web UI :

  • WebChat、Canvas/A2UI、控制台等

这些都通过 Gateway 的 WS 网络统一管理。

知识与扩展层:Workspace & Skills

除了基本的聊天之外,Clawdbot 还包含一个丰富的技能系统,通过特定领域的能力扩展功能。Skills 是模块化包,添加新功能,如与外部服务的集成、专用工具或增强的命令处理。Skills 可以通过受控接口访问系统资源,并且可以按工作区启用或禁用,以实现细粒度控制。

Skills 生态系统包括:

  • 生产力 Skill:与笔记集成(Notion、Obsidian、Apple Notes)、任务管理、日历系统

  • 媒体 Skill:语音转录、图像生成、视频帧提取、音频处理

  • 实用 Skill:天气信息、本地商家搜索、GitHub 集成、密码管理 (1Password)

  • 开发 Skill:编码 Agent、git 操作、shell 命令执行、包管理

5.1 Workspace(工作区)

  • 默认路径: ~/clawd (可配置)

  • 每个 Agent 有自己的 workspace root

  • 注入提示文件(Injected prompts):

  • AGENTS.md 、 SOUL.md 、 TOOLS.md 等

  • 会话/记忆/配置多使用 Markdown 文件存储,类似 Obsidian 结构

5.2 Skills & ClawdHub

  • 技能目录结构: ~/clawd/skills//SKILL.md

  • 技能可以是:

  • 本地脚本/CLI

  • 外部 API

  • 某类云服务集成

  • ClawdHub:技能 registry,支持自动发现和拉取新技能

安全模型与部署方式

安全模型 :

  • DM policy:默认只对配对过的用户开放

  • allowlist/denylist 策略

  • 会话隔离(main vs。 non-main),Docker 沙箱等

部署 :

  • 本地安装:npm/pnpm/bun 全局安装 clawdbot

  • Nix 模式、Docker 镜像

  • 结合 Tailscale Serve/Funnel 暴露 Gateway dashboard 和 WS 访问

 国产软件生态适配可行性分析 

从 技术架构匹配度 看: Clawdbot 采用的是“通道插件化 + 工具插件化 + 技能插件化”,非常适合扩展国产生态, 不需要重写核心框架 。

真正的难点不在“能不能做”,而在于:

  • 各家平台的 合规和账号策略

  • 频率限制、权限申请

  • 以及个人微信这类 没有官方开放 API 的场景。

下面分点逐一分析和给出可行路线。

社区投稿 | Clawdbot:技术架构与国产软件生态适配分析

微信(重点区分:个人微信 vs 企业微信)

1.1 个人微信

官方不提供个人号的公开 API(自建客服、自动回复等大多基于公众号/小程序、对话开放平台等)

市场上存在的方案:

  • Windows API Hook / Xposed / PC 客户端模拟点击/键盘

  • 第三方库:itchat、WeChatPYAPI 等,通过协议模拟

主要问题:

  • 高封号风险 :批量自动化、群发、高频操作容易被检测

  • 法律与合规风险 :未获微信官方授权

不建议在官方发行分支直接支持个人微信协议级接入

若一定要做,适合放在:

  • 私有分支 / 本地脚本级 Skill

  • 通过“本地浏览器自动化 + Web 微信/多开客户端”实现弱耦合控制,而非直接协议 Hook

1.2 企业微信(Work WeChat)

企业微信是 适配价值最高,也是风险最可控 的一类微信生态入口:

提供官方开放平台:

  • Webhook 机器人:支持文本、Markdown、图片、卡片等消息类型

  • 应用消息发送 API:可向指定用户/群发送消息,支持双向交互

  • 事件订阅(接收消息 & 事件):新消息、客户消息等通过回调 URL 推送

技术接入方式与 Clawdbot 当前海外通道非常类似:

企业微信 → 回调 URL → 本地 Gateway HTTP 入口 → Gateway → Agent

Gateway → 企业微信 API/Webhook → 群/用户

可行方案 :

实现一个 WeComChannel (类似 TelegramChannel):

  • 入站:配置企业微信“接收消息服务器 URL”,指向 Gateway 的 HTTP/WS 入口,将消息转换为 Clawdbot 的统一消息结构

  • 出站:使用企业微信应用消息 API 或群机器人 Webhook 发送响应

会话模型:

  • 使用 userid / chatid 作为通道内用户/会话标识,映射到 Gateway sessionId

安全:

  • 默认只对指定部门/群开放

  • 使用企业微信的权限控制进行初级筛选,再配合 Clawdbot 自身的 pairing 机制

个人微信 不推荐 在官方架构中适配;企业微信适配 技术可行性高,合规性好,建议优先做 。

钉钉(DingTalk)

2.1 能力概览

官方开放平台非常完善:

  • 机器人接收消息:当用户@机器人或发单聊消息时,钉钉推送 JSON 事件到你的服务端

  • 发送群消息、单聊消息

  • 获取用户、群信息等

  • 自定义机器人(Webhook)单向推送

  • 企业内部机器人(双向,支持接收@消息和单聊)

  • 机器人:

  • 服务端 API:

  • 事件订阅:

2.2 与 Clawdbot 架构的契合

可以直接比照 Telegram/Slack 通道:

  • 入站消息 :

钉钉 → 机器人回调 URL(HTTP POST JSON)→ Clawdbot Gateway HTTP 入口 → 统一消息对象

  • 出站消息 :

Gateway → 钉钉机器人 Webhook / API → 群或个人

实现要点 :

需要实现 DingTalkChannel :

  • 解析钉钉消息回调格式,转换为统一 MessageType(text/image/file 等)

  • 维护 openConversationId / senderStaffId 等与 Clawdbot session 的映射

频率与权限:

  • 注意钉钉的调用频率、并发限制

  • 需要在企业/ISV 维度申请相应接口权限

技术适配几乎是“模板化工作”,只要参考已有海外通道实现; 综合可行性:高,建议作为企业场景的第一优先级通道之一(与企业微信/ 飞书 并列)。

飞书(Feishu / Lark)

飞书是 目前国内在开放平台友好度上最接近 Slack/Discord 的产品 ,对 Clawdbot 这种网关架构极其友好。

3.1 飞书能力

企业自建应用:

  • 机器人能力(Bot),消息发送/接收

  • 事件订阅: im.message.receive_v1 等

  • Webhook:自定义机器人单向推送

  • 丰富的服务端 API:群管理、多维表格、日程等

3.2 与 Clawdbot 的集成方式

基本等价于实现一个 FeishuChannel :

  • 入站:

飞书应用配置“事件订阅 URL”→ 指向 Gateway 的 HTTP 服务

消息事件统一转成内部 Message 对象(content、sender、chatType、chatId 等)

  • 出站:

使用 sendasbot 的消息 API 回复消息(文本/富文本/卡片)

优势 :

  • 官方 SDK 和文档完善

  • 消息模型清晰,适合构建复杂的自动化和卡片交互

  • 飞书本身已经大规模支持 AI 场景(与 MCP、AI Agent 集成),生态心智匹配

适配难度低、体验潜力最大,强烈建议作为首选国产通道进行 POC 和第一版支持。

WPS(含 WebOffice & 客户端插件)

WPS 分两层:

  • WebOffice 开放平台 (云端文档预览/编辑/转换)

  • 本地 WPS 客户端二次开发 / 插件 / JSAPI

4.1 WebOffice 场景

适合这种模式:

Clawdbot 作为“文档助手”,通过 WebOffice 开放平台:

  • 获取文档内容(API 调用)

  • 分析、总结、重写

  • 写回文档,或生成新版本

实现方式:

定义 WpsWebOfficeSkill (Skill 层):

  • 获取文件元数据

  • 获取/更新文件内容

  • 触发格式转换(如 Word → PDF)

  • 封装 WebOffice SDK 的 HTTP API:

4.2 本地 WPS 客户端

面向在用户 PC 上安装的 WPS:

有 JS API/SDK 可供二次开发

可以通过:

  • WPS 插件(VBA/JS)

  • 或通过本地 HTTP 服务 + 外部进程控制

在 Clawdbot 架构中:

建议把本地 WPS 调用封装为一个 Node 工具 或 本地 Skill ,由 Pi Agent 触发:

如 wps.open(filePath) / wps.saveAsPdf(filePath, outputPath)

WPS 更偏工具集成层(Tools/Skills),与通道适配解耦; 技术可行性高,主要工作量在封装 SDK 和做权限确认界面。

腾讯会议(Tencent Meeting)

腾讯会议的适配,本质上是把它当做一个“会议控制技能”。

5.1 能力

REST API:

  • 创建/预定会议

  • 修改/取消会议

  • 查询会议信息、参会者

  • SDK:

  • 深度集成到自有客户端(适合企业产品)

5.2 在 Clawdbot 中的位置

适合实现为一个 Skill 而不是“通道”:

用户在任何通道(飞书/钉钉/企业微信)里对 Clawdbot 说:

“帮我创建一个今天下午 3 点的评审会议,参会人是 A/B/C”

Gateway → Agent → TencentMeetingSkill.createMeeting() :

  • 通过 REST API 创建会议

  • 返回会议链接/会议号/密码

再由 Agent 决定:

  • 在当前通道发送会议卡片

  • 或发邮件/日程邀请(可接入其他邮件工具)

作为“工具层 Skill”,技术上非常简单、边界清晰; 唯一成本在于企业版权限申请和运维, 可行性高 。

本地浏览器控制

这块 Clawdbot 已经有成熟能力(Browser control via CDP),在国内环境主要考虑的是:

  • 目标网站多为国产站点,需要处理中文界面和复杂交互

  • 某些场景可以考虑直接集成像 browser-use 这类开源 AI 浏览器自动化工具,以获得更高层的抽象

可行方案 :

  • 复用现有 Browser Tool(Chromium + CDP)

  • 对于高阶自动化场景:

在 Clawdbot 的 Tool 层接入 browser-use 或 Playwright 封装

对 LLM 暴露“浏览器动作工具”,比如: open_url , click(selector) , fill(selector, text)

浏览器控制是 Clawdbot 原生强项,迁移到国内环境主要是“网站变化”和“人机验证”问题, 技术上高度可行 。

搜索引擎(重点:U 深搜、博查 AI、百度 AI 搜索等)

国外 Clawdbot 常用的是 Google/Bing 等搜索。国内适配可以选:

  • U 深搜是由深度搜索厂商 UniFuncs 推出的深度搜索产品,采用深度推理技术,基于国产模型底座驱动。只需要 3 分钟,给您一个精准、全面、可靠的答案!

  • 博查 AI Web Search API:专门为 AI / RAG 场景设计的国内搜索 API

  • 百度 AI 搜索:需额外企业认证,且策略可能更严格

在 Clawdbot 中的实现 :

定义 SearchSkill :

  • 入参:query / 时间范围 / 数量等

  • 调用U 深搜,博查等搜索引擎API,返回列表(标题、链接、snippet、内容摘要)

  • Agent 再基于这些结果做进一步总结或决策

搜索是纯后端 HTTP API 调用, 几乎没有架构性风险 ;关键在内容质量、费用控制与合规性。国内首选博查 AI 这类“AI 友好型搜索 API”。

建议的国产生态适配优先级与实施路线

综合“技术难度 × 使用价值 × 合规风险”,可以给出一个推荐顺序:

通道适配优先级 1)飞书 2)企业微信 3)钉钉 —— 三者都可以依照现有海外通道模式开发 Channel 插件

工具/Skill 适配优先级 1)浏览器控制(复用现有 Browser Tool,增加国产站点测试) 2)搜索引擎(U 深搜/博查 API) 3)腾讯会议 Skill 4)WPS(WebOffice + 本地客户端操作)

不建议在官方分支深度集成的方向

  • 个人微信协议级自动化(封号 & 法务风险高)

  • 各类非官方 Hook/注入方案(Xposed 等) —— 可以由个人/团队在自身私有 Skill 中使用,但不宜做成默认能力

建议的迭代路径(目标是 “Clawdbot-CN” 版)

Phase 1:通道打通 + 最小可用

  • 实现 FeishuChannel (只支持文字、基本卡片)

  • 复用 Browser Tool、本地文件操作,配合搜索 API

  • 目标:用户在飞书里对 Clawdbot 发消息,就能:

  • 搜索资料

  • 打开网页抓取信息

  • 在本机跑简单脚本

Phase 2:企业覆盖 + 常用办公工具

  • 新增 WeComChannel 和 DingTalkChannel

  • 接入腾讯会议 Skill

  • 接入 WPS WebOffice(文档分析、自动生成/润色)

Phase 3:深度自动化与安全治理

  • 针对浏览器自动化和系统命令,增加更细粒度的权限控制 & 审计

  • 对大规模企业部署,优化:

  • 日志、监控、告警

  • 多 Agent 协作(不同部门、不同角色)

总结

Clawdbot 的本质是 本地优先、通道插件化、工具插件化的 AI 网关 ,架构上对“在国内生态重做一套通道+工具适配层”非常友好,无需推翻重来。

国产生态里, 飞书 / 企业微信 / 钉钉 在通道能力上与 Telegram/Slack/Discord 非常类似,只要按照现有 Channel 抽象写适配器即可, 技术可行性高,主要工作是 API 对接与会话映射。

WPS、腾讯会议、更换搜索引擎(如U 深搜等 AI 优化的搜索引擎接口服务)更适合作为 Skill / Tool 层集成 ,对现有框架几乎无侵入,开发投入可控。

真正需要谨慎的是 个人微信 这类没有官方开放接口、严重依赖非官方协议或注入的场景,不适合作为 Clawdbot 官方面向大众的能力,但可以留出 Skill 插槽让用户自行扩展。

了解项目更多情况戳👇🏻

☆一键收藏项目:

https://sota.jiqizhixin.com/project/clawdbot



AI 前线

告别 AI 土味审美!Kimi K2.5 实测:扔个视频复刻 iOS 级丝滑动效

2026-1-31 21:09:50

AI 前线

Alyah ⭐️:迈向阿拉伯语 LLM 阿联酋方言能力的鲁棒性评估

2026-1-31 21:09:58

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索