auto_awesome 深度调研报告

OS-Level AI Agents
桌面智能体深度调研

基于19个产品的全面调研,涵盖系统级AI助手、RPA+AI平台、开源框架等多个维度,深入分析技术路线、市场格局与构建方法。

19
调研产品
3
技术路线
9
核心模块
2026-2028
趋势预测
生成时间:2026年2月6日 | OpenClaw Research

category 第一部分:产品全景

全面梳理桌面Agent市场格局,包括商业产品、开源项目,按区域和层级进行分类分析。

9
商业产品
Windows Copilot, Codex等
10
开源项目
UI-TARS, OpenClaw, memU等
8
国内产品
影刀, 来也, 天工等
6
系统级
深度系统集成
9
桌面级
应用层Agent
3
框架级
开发框架/库
共19个产品
产品名称 公司/组织 类型 地区 核心技术 关键特性

国内产品 8个

海外产品 10个

desktop_windows 系统级 Agent 深度操作系统集成

apps 桌面级 Agent 应用层Agent

code 框架级 Agent 开发框架与库

产品 类型 地区 层级 技术路线 定价 易用性 通用性 企业就绪 社区 隐私

技术路线分布

地域分布

analytics 第二部分:深度分析

技术路线对比、市场竞争格局、趋势预测与投资机会分析。

技术路线对比

visibility

视觉理解路线

Visual Understanding

check_circle 通用性强,跨应用操作
check_circle 无需预定义流程
check_circle 适用于GUI自动化
cancel 技术门槛高(需VLM)
cancel 计算资源消耗大
代表产品
Claude Computer Use Agent-S UI-TARS
趋势:从简单坐标点击向元素级语义理解演进;多模态融合成为主流方向
code

代码执行路线

Code Execution

check_circle 代码确定性高
check_circle 灵活性极高
check_circle 开发者友好
cancel 需要编程思维
cancel 安全沙箱限制
代表产品
OpenAI Codex Open Interpreter OpenClaw
趋势:从简单代码生成向端到端任务闭环演进;沙箱安全机制成为标配
automation

RPA自动化路线

RPA Automation

check_circle 稳定性高
check_circle 技术门槛低
check_circle 企业级方案成熟
cancel 灵活性中等
cancel 初期配置成本高
代表产品
影刀 RPA 来也科技 弘玑 Cyclone
趋势:从规则驱动向智能驱动演进;向"超自动化平台"演进

市场竞争格局

corporate_fare 国际巨头

MS
Microsoft
Windows Copilot - 系统级原生集成,操作系统原生支持AI Agent
OA
OpenAI
Codex - 软件工程Agent标杆,从代码生成向全栈演进
An
Anthropic
Claude Computer Use - 通用计算机操作首创,推动Agentic AI共识
BD
ByteDance
UI-TARS-desktop - 开源多模态Agent,大厂开源抢占生态

flag 国内厂商

来也科技
企业级RPA+AI先驱
头部
弘玑 Cyclone
Gartner认可,金融领域强势
领先
影刀 RPA
全民RPA工具领导者
活跃
云扩科技
微软背景,技术派
重要玩家
实在智能
AI原生RPA创新者
创新
昆仑天工
AI原生桌面助手
快速增长

趋势时间线 2026-2028

2026 专用VLM性能突破

UI-TARS等专用视觉语言模型持续优化,OSWorld等基准测试性能突破80%,视觉理解准确率大幅提升。

2026-2027 多模态融合成为标配

视觉+语言+代码的三模态Agent成为主流,"看图操作"能力接近人类水平。端侧AI崛起,Copilot+ PC引领本地NPU算力革命。

2026-2027 垂直行业深度渗透

金融、政务、医疗、制造成为主战场,行业专属Agent大量涌现,从"通用工具"向"行业解决方案"演进。

2026-2028 Agent操作系统化

AIOS等智能体OS框架推动行业标准化,从'应用级Agent'向'系统级Agent'演进,操作系统原生支持AI Agent成为趋势。

2027-2028 多Agent协作网络

从单一Agent向多Agent协作演进,Agent之间可通信、协作、分工,形成'AI团队'完成复杂项目。

投资机会矩阵

foundation

基础模型层

OpenAI, Anthropic, 字节跳动

技术壁垒高,掌握生态主导权,多模态模型是Agent核心能力基础

风险: 中高 长期
code

开源框架层

Agent-S, UI-TARS, OpenClaw

社区驱动,快速迭代,成为创新基础设施,潜在被商业收购价值

风险: 中 中期
business

国内龙头厂商

来也, 弘玑, 影刀, 云扩

本土市场优势,信创政策红利,上市预期,企业级客户粘性高

风险: 中 中期
domain

垂直行业应用

金融, 政务, 医疗, 制造Agent

行业Know-How壁垒,高客单价,定制化服务,细分领域龙头机会

风险: 中低 短期-中期
settings

基础设施平台

AIOS类OS, Agent管理平台

平台价值,生态位关键,网络效应,一旦占领难以替代

风险: 高 长期
memory

端侧AI硬件

Copilot+ PC, NPU芯片

本地算力需求增长,隐私驱动本地部署,硬件+软件协同优化

风险: 中 中期

construction 第三部分:构建桌面 Agent 指南

基于19个产品的深度调研,提供构建桌面Agent的详细技术指南。

技术选型决策树

desktop_mac 前端框架

Tauri
Rust核心,性能优异,打包体积小
✓ 推荐:UI-TARS-desktop采用
Electron
生态最成熟,文档丰富
⚠ 内存占用高,包体积大
Flutter Desktop
跨平台一致性好,性能接近原生
原生开发
性能最优,系统API完整访问
⚠ 开发成本高,双平台维护

dns 后端语言

Node.js + TypeScript
前后端统一,与Electron/Tauri集成无缝
✓ 推荐:OpenClaw, UI-TARS采用
Python + FastAPI
AI/ML生态最完善
✓ 推荐:AI密集型Agent
Rust
性能最优,内存安全
⚠ 学习曲线陡峭
Go
编译快,并发优秀

psychology AI模型

云端大模型 API
Claude/GPT/Gemini,能力最强
⚠ 依赖网络,隐私风险
本地大模型 (Ollama)
完全隐私,无网络依赖
⚠ 需要高端GPU
混合模式
云端+本地,平衡能力隐私
✓ 生产级最佳实践
视觉语言模型 (VLM)
UI-TARS, GPT-4V,GUI自动化必需

核心模块设计

chat

聊天界面

SSE/WebSocket + React/Vue
  • • 流式输出(SSE)实现打字机效果
  • • 消息历史管理与多模态输入
  • • Markdown渲染与代码高亮
  • • 快捷键支持与主题个性化
预估工期:2-3周
mouse

屏幕控制

VLM + pyautogui/robotjs
  • • 屏幕捕获与视觉理解
  • • Grounding模型定位元素
  • • 动作执行与坐标映射
  • • 安全边界与执行确认
预估工期:4-6周
terminal

代码执行

Sandbox + E2B/CodeSandbox
  • • 沙箱隔离与安全执行
  • • 多语言支持与依赖管理
  • • 资源限制与输入输出捕获
  • • 执行确认与错误处理
预估工期:3-5周
extension

技能系统

Plugin + JSON Schema
  • • JSON Schema定义技能参数
  • • 动态注册/卸载与函数调用
  • • 权限控制与技能市场
  • • 技能组合与模板复用
预估工期:3-4周
hub

MCP集成

MCP Protocol + stdio/sse
  • • Anthropic MCP开放标准
  • • stdio/SSE/WebSocket传输
  • • 能力发现与资源访问
  • • 复用社区MCP服务器
预估工期:2-3周
language

浏览器控制

Playwright/Puppeteer + CDP
  • • Playwright多浏览器支持
  • • CDP协议低级控制
  • • 页面操作与会话持久
  • • 无头模式与下载处理
预估工期:2-3周
folder

文件系统操作

Node.js fs + chokidar
  • • 沙箱路径限制与文件读写
  • • 文件监控与全文搜索
  • • 权限检查与大文件处理
  • • 版本控制与类型检测
预估工期:2周
mic

语音交互

Whisper + TTS
  • • Whisper语音识别
  • • 语音唤醒与VAD检测
  • • 流式识别与语音打断
  • • ElevenLabs/Azure TTS
预估工期:2-3周

安全架构流程图

security

沙箱隔离

• 进程级隔离
• Docker容器
• Firecracker VM
CPU: 1核 | 内存: 512MB | 超时: 30s
key

权限控制

• 系统权限
• 网络权限
• 文件权限
• UI权限
基于能力的权限模型
help

操作确认

• 模态对话框
• Toast预览
• 内嵌确认
• 超时拒绝
危险操作强制确认
encrypted

隐私保护

• 本地优先
• AES-256加密
• 数据最小化
• 用户控制
敏感数据本地处理
history

审计日志

记录所有重要操作:安全事件、Agent动作、用户操作、系统事件。日志本地存储,保留90天,支持导出。

开发规范检查清单

folder_copy 项目结构

my-desktop-agent/
├── apps/
│   ├── desktop/          # Tauri/Electron
│   └── web/              # Web版本
├── packages/
│   ├── core/             # Agent核心逻辑
│   ├── ui/               # 共享UI组件
│   ├── skills/           # 技能插件
│   └── sandbox/          # 沙箱实现
├── servers/
│   ├── gateway/          # Gateway服务
│   └── mcp/              # MCP服务器
├── docs/                 # 文档
├── tests/                # 测试
└── turbo.json            # Turborepo

api API设计规范

  • REST原则:资源为中心,正确使用HTTP方法
  • URL版本:/v1/agents,保留6个月兼容期
  • SSE流式:Server-Sent Events用于流式响应
  • 认证:Bearer Token + Rate Limiting
  • 文档:OpenAPI 3.0 + Swagger UI

error 错误处理

  • 标准错误结构:code, message, details, suggestion
  • HTTP状态码:200/201/400/401/403/404/500
  • 用户友好:简单语言解释,提供修复建议
  • 自动恢复:指数退避重试,故障转移

checklist 测试策略

  • 测试金字塔:70%单元 + 20%集成 + 10%E2E
  • LLM测试:Evals评估 + Golden数据集
  • 性能测试:负载、压力、内存泄漏检测
  • CI/CD:pre-commit + PR checks + 夜间回归

产品借鉴矩阵

Owork

技能管理 + MCP生态

  • • 技能市场是关键差异化因素
  • • MCP协议标准化工具集成
  • • 技能热插拔无需重启
适合:企业级Agent平台
UI-TARS

VLM集成与GUI自动化

  • • 专用VLM优于通用多模态模型
  • • 两阶段架构更可靠
  • • 降低分辨率提升速度
适合:深度GUI自动化
OpenClaw

多渠道 + 本地优先

  • • 多渠道降低用户adoption门槛
  • • 本地优先是隐私强需求
  • • Gateway模式支持多设备
适合:个人助手、多设备
Agent-S

性能优化 + 学术研究

  • • 通用专家-专家框架
  • • Best-of-N策略选择最优动作
  • • OSWorld 72.60%超越人类
适合:追求极致性能
Open Interpreter

代码执行 + 本地优先

  • • 代码执行是Agent最强能力
  • • 沙箱安全不可妥协
  • • 多语言支持覆盖更多场景
适合:技术用户、开发辅助
影刀RPA

低代码 + 商业化

  • • 可视化大幅降低使用门槛
  • • 社区版免费+企业版付费
  • • 丰富学习资源加速用户成长
适合:非技术用户产品

未来演进路线图

merge_type

多模态融合

2025-2026
原生多模态模型成熟,统一处理文本、图像、音频
2026-2027
视频理解能力成熟,支持自动化视频编辑
2026-2028
3D场景理解,支持AR/VR环境Agent交互
devices

端侧AI

持续演进
模型小型化:量化、剪枝、蒸馏技术成熟
2025-2027
NPU普及:Apple Neural Engine、Intel NPU等
2025
端云协同:简单任务本地,复杂任务云端
groups

多Agent协作

2025-2026
角色专业化:不同Agent专精不同领域
2025-2026
通信协议标准化:MCP扩展、A2A协议
2025
人机协作团队:人类作为Manager协调Agent
payments

商业模式

订阅制
Basic/Pro/Enterprise分层,生命周期价值高
技能市场
官方+第三方技能,平台抽成模式
开源+商业
核心开源,企业版增值功能

trending_up 行业渗透预测

软件开发
AI编程助手标配
金融
信创驱动国产替代
客服
可执行操作解决
医疗
病历、影像辅助
教育
个性化学习助手

menu_book 第四部分:名词解释

本报告中涉及的专业术语说明

smart_toy

Agent / 智能体

能够感知环境、理解任务、做出决策并执行行动的人工智能系统。在本报告中指能够在桌面上执行自动化任务的AI助手。

visibility

VLM

视觉语言模型,能够同时理解图像和文本的多模态模型。在桌面Agent中用于理解屏幕内容、识别UI元素。

build

RPA

机器人流程自动化,通过软件机器人模拟人类操作自动执行重复性业务流程的技术。

hub

MCP

Model Context Protocol,Anthropic推出的开放标准协议,用于规范AI助手与外部工具、数据源的通信连接。

psychology

LLM

Large Language Model,大语言模型,如GPT-4、Claude等基于Transformer的AI模型,能够理解和生成自然语言。

mouse

GUI Automation

图形用户界面自动化,通过模拟鼠标、键盘操作来控制图形界面的技术。

settings

System-Level Agent

系统级Agent,拥有操作系统原生集成权限,能够访问系统API、执行底层操作。

security

Sandbox / 沙箱

隔离的运行环境,用于安全地执行AI生成的代码,防止恶意操作影响主系统。

memory

端侧AI

Edge AI,在本地设备(而非云端)上运行的AI模型,强调数据隐私和低延迟响应。

speed

OSWorld

用于评估AI Agent操作计算机能力的基准测试,包含各种真实计算任务,Agent-S在此测试中达到72.60%超越人类水平。

hub

A2A Protocol

Agent-to-Agent Protocol,Google推出的开放协议,用于规范不同AI Agent之间的通信与协作。

extension

Function Calling

函数调用,LLM通过调用预定义函数来执行实际操作的能力,是Agent工具使用的基础。

article

Token

令牌,LLM处理文本的基本单位,通常一个词或词的一部分。API按token数量计费。

chat

Context Window

上下文窗口,LLM单次能处理的最大token数量,决定了Agent能记住多少对话历史。

tune

Prompt Engineering

提示词工程,通过设计优化输入提示来引导LLM产生更好输出的技术和方法。

straighten

Temperature

温度参数,控制LLM输出随机性的参数。较低值产生更确定性输出,较高值增加创造性。

dns

Grounding

接地,将AI输出与现实世界信息对齐的技术,确保Agent理解真实世界上下文。

storage

Vector Database

向量数据库,存储和检索向量嵌入的数据库,用于语义搜索、RAG等场景。

search

RAG

检索增强生成,通过结合外部知识库来增强LLM回答质量的技术。

record_voice_over

Whisper

OpenAI开发的开源语音识别模型,支持多语言高精度转录,常用于Agent语音输入。

volume_up

TTS

Text-to-Speech,文本转语音技术,将文本内容转换为自然语音输出的能力。

mic

VAD

Voice Activity Detection,语音活动检测,用于识别用户是否在说话的技术。

layers

Multi-modal

多模态,能够同时处理和理解多种类型数据(文本、图像、音频等)的AI模型能力。

science

Fine-tuning

微调,在预训练模型基础上使用特定数据集进行进一步训练,以适应特定任务或领域。