OS-Level AI Agents 深度调研报告

analytics 第二部分：深度分析

技术路线对比、市场竞争格局、趋势预测与投资机会分析。

技术路线对比

visibility

视觉理解路线

Visual Understanding

check_circle 通用性强，跨应用操作

check_circle 无需预定义流程

check_circle 适用于GUI自动化

cancel 技术门槛高（需VLM）

cancel 计算资源消耗大

代表产品

Claude Computer Use Agent-S UI-TARS

趋势：从简单坐标点击向元素级语义理解演进；多模态融合成为主流方向

code

代码执行路线

Code Execution

check_circle 代码确定性高

check_circle 灵活性极高

check_circle 开发者友好

cancel 需要编程思维

cancel 安全沙箱限制

代表产品

OpenAI Codex Open Interpreter OpenClaw

趋势：从简单代码生成向端到端任务闭环演进；沙箱安全机制成为标配

automation

RPA自动化路线

RPA Automation

check_circle 稳定性高

check_circle 技术门槛低

check_circle 企业级方案成熟

cancel 灵活性中等

cancel 初期配置成本高

代表产品

影刀 RPA 来也科技弘玑 Cyclone

趋势：从规则驱动向智能驱动演进；向"超自动化平台"演进

市场竞争格局

corporate_fare 国际巨头

Microsoft

Windows Copilot - 系统级原生集成，操作系统原生支持AI Agent

OpenAI

Codex - 软件工程Agent标杆，从代码生成向全栈演进

Anthropic

Claude Computer Use - 通用计算机操作首创，推动Agentic AI共识

ByteDance

UI-TARS-desktop - 开源多模态Agent，大厂开源抢占生态

flag 国内厂商

来也科技

企业级RPA+AI先驱

头部

弘玑 Cyclone

Gartner认可，金融领域强势

领先

影刀 RPA

全民RPA工具领导者

活跃

云扩科技

微软背景，技术派

重要玩家

实在智能

AI原生RPA创新者

创新

昆仑天工

AI原生桌面助手

快速增长

趋势时间线 2026-2028

2026 专用VLM性能突破

UI-TARS等专用视觉语言模型持续优化，OSWorld等基准测试性能突破80%，视觉理解准确率大幅提升。

2026-2027 多模态融合成为标配

视觉+语言+代码的三模态Agent成为主流，"看图操作"能力接近人类水平。端侧AI崛起，Copilot+ PC引领本地NPU算力革命。

2026-2027 垂直行业深度渗透

金融、政务、医疗、制造成为主战场，行业专属Agent大量涌现，从"通用工具"向"行业解决方案"演进。

2026-2028 Agent操作系统化

AIOS等智能体OS框架推动行业标准化，从'应用级Agent'向'系统级Agent'演进，操作系统原生支持AI Agent成为趋势。

2027-2028 多Agent协作网络

从单一Agent向多Agent协作演进，Agent之间可通信、协作、分工，形成'AI团队'完成复杂项目。

投资机会矩阵

foundation

基础模型层

OpenAI, Anthropic, 字节跳动

技术壁垒高，掌握生态主导权，多模态模型是Agent核心能力基础

风险: 中高长期

code

开源框架层

Agent-S, UI-TARS, OpenClaw

社区驱动，快速迭代，成为创新基础设施，潜在被商业收购价值

风险: 中中期

business

国内龙头厂商

来也, 弘玑, 影刀, 云扩

本土市场优势，信创政策红利，上市预期，企业级客户粘性高

风险: 中中期

domain

垂直行业应用

金融, 政务, 医疗, 制造Agent

行业Know-How壁垒，高客单价，定制化服务，细分领域龙头机会

风险: 中低短期-中期

settings

基础设施平台

AIOS类OS, Agent管理平台

平台价值，生态位关键，网络效应，一旦占领难以替代

风险: 高长期

memory

端侧AI硬件

Copilot+ PC, NPU芯片

本地算力需求增长，隐私驱动本地部署，硬件+软件协同优化

风险: 中中期

construction 第三部分：构建桌面 Agent 指南

基于19个产品的深度调研，提供构建桌面Agent的详细技术指南。

技术选型决策树

desktop_mac 前端框架

Tauri

Rust核心，性能优异，打包体积小

✓ 推荐：UI-TARS-desktop采用

Electron

生态最成熟，文档丰富

⚠ 内存占用高，包体积大

Flutter Desktop

跨平台一致性好，性能接近原生

原生开发

性能最优，系统API完整访问

⚠ 开发成本高，双平台维护

dns 后端语言

Node.js + TypeScript

前后端统一，与Electron/Tauri集成无缝

✓ 推荐：OpenClaw, UI-TARS采用

Python + FastAPI

AI/ML生态最完善

✓ 推荐：AI密集型Agent

Rust

性能最优，内存安全

⚠ 学习曲线陡峭

编译快，并发优秀

psychology AI模型

云端大模型 API

Claude/GPT/Gemini，能力最强

⚠ 依赖网络，隐私风险

本地大模型 (Ollama)

完全隐私，无网络依赖

⚠ 需要高端GPU

混合模式

云端+本地，平衡能力隐私

✓ 生产级最佳实践

视觉语言模型 (VLM)

UI-TARS, GPT-4V，GUI自动化必需

核心模块设计

chat

聊天界面

SSE/WebSocket + React/Vue

• 流式输出(SSE)实现打字机效果
• 消息历史管理与多模态输入
• Markdown渲染与代码高亮
• 快捷键支持与主题个性化

预估工期：2-3周

mouse

屏幕控制

VLM + pyautogui/robotjs

• 屏幕捕获与视觉理解
• Grounding模型定位元素
• 动作执行与坐标映射
• 安全边界与执行确认

预估工期：4-6周

terminal

代码执行

Sandbox + E2B/CodeSandbox

• 沙箱隔离与安全执行
• 多语言支持与依赖管理
• 资源限制与输入输出捕获
• 执行确认与错误处理

预估工期：3-5周

extension

技能系统

Plugin + JSON Schema

• JSON Schema定义技能参数
• 动态注册/卸载与函数调用
• 权限控制与技能市场
• 技能组合与模板复用

预估工期：3-4周

hub

MCP集成

MCP Protocol + stdio/sse

• Anthropic MCP开放标准
• stdio/SSE/WebSocket传输
• 能力发现与资源访问
• 复用社区MCP服务器

预估工期：2-3周

language

浏览器控制

Playwright/Puppeteer + CDP

• Playwright多浏览器支持
• CDP协议低级控制
• 页面操作与会话持久
• 无头模式与下载处理

预估工期：2-3周

folder

文件系统操作

Node.js fs + chokidar

• 沙箱路径限制与文件读写
• 文件监控与全文搜索
• 权限检查与大文件处理
• 版本控制与类型检测

预估工期：2周

mic

语音交互

Whisper + TTS

• Whisper语音识别
• 语音唤醒与VAD检测
• 流式识别与语音打断
• ElevenLabs/Azure TTS

预估工期：2-3周

安全架构流程图

security

沙箱隔离

• 进程级隔离

• Docker容器

• Firecracker VM

CPU: 1核 | 内存: 512MB | 超时: 30s

key

权限控制

• 系统权限

• 网络权限

• 文件权限

• UI权限

基于能力的权限模型

help

操作确认

• 模态对话框

• Toast预览

• 内嵌确认

• 超时拒绝

危险操作强制确认

encrypted

隐私保护

• 本地优先

• AES-256加密

• 数据最小化

• 用户控制

敏感数据本地处理

history

审计日志

记录所有重要操作：安全事件、Agent动作、用户操作、系统事件。日志本地存储，保留90天，支持导出。

开发规范检查清单

folder_copy 项目结构

my-desktop-agent/
├── apps/
│   ├── desktop/          # Tauri/Electron
│   └── web/              # Web版本
├── packages/
│   ├── core/             # Agent核心逻辑
│   ├── ui/               # 共享UI组件
│   ├── skills/           # 技能插件
│   └── sandbox/          # 沙箱实现
├── servers/
│   ├── gateway/          # Gateway服务
│   └── mcp/              # MCP服务器
├── docs/                 # 文档
├── tests/                # 测试
└── turbo.json            # Turborepo

api API设计规范

✓ REST原则：资源为中心，正确使用HTTP方法
✓ URL版本：/v1/agents，保留6个月兼容期
✓ SSE流式：Server-Sent Events用于流式响应
✓ 认证：Bearer Token + Rate Limiting
✓ 文档：OpenAPI 3.0 + Swagger UI

error 错误处理

✓ 标准错误结构：code, message, details, suggestion
✓ HTTP状态码：200/201/400/401/403/404/500
✓ 用户友好：简单语言解释，提供修复建议
✓ 自动恢复：指数退避重试，故障转移

checklist 测试策略

✓ 测试金字塔：70%单元 + 20%集成 + 10%E2E
✓ LLM测试：Evals评估 + Golden数据集
✓ 性能测试：负载、压力、内存泄漏检测
✓ CI/CD：pre-commit + PR checks + 夜间回归

产品借鉴矩阵

Owork

技能管理 + MCP生态

• 技能市场是关键差异化因素
• MCP协议标准化工具集成
• 技能热插拔无需重启

适合：企业级Agent平台

UI-TARS

VLM集成与GUI自动化

• 专用VLM优于通用多模态模型
• 两阶段架构更可靠
• 降低分辨率提升速度

适合：深度GUI自动化

OpenClaw

多渠道 + 本地优先

• 多渠道降低用户adoption门槛
• 本地优先是隐私强需求
• Gateway模式支持多设备

适合：个人助手、多设备

Agent-S

性能优化 + 学术研究

• 通用专家-专家框架
• Best-of-N策略选择最优动作
• OSWorld 72.60%超越人类

适合：追求极致性能

Open Interpreter

代码执行 + 本地优先

• 代码执行是Agent最强能力
• 沙箱安全不可妥协
• 多语言支持覆盖更多场景

适合：技术用户、开发辅助

影刀RPA

低代码 + 商业化

• 可视化大幅降低使用门槛
• 社区版免费+企业版付费
• 丰富学习资源加速用户成长

适合：非技术用户产品

未来演进路线图

merge_type

多模态融合

2025-2026

原生多模态模型成熟，统一处理文本、图像、音频

2026-2027

视频理解能力成熟，支持自动化视频编辑

2026-2028

3D场景理解，支持AR/VR环境Agent交互

devices

端侧AI

持续演进

模型小型化：量化、剪枝、蒸馏技术成熟

2025-2027

NPU普及：Apple Neural Engine、Intel NPU等

2025

端云协同：简单任务本地，复杂任务云端

groups

多Agent协作

2025-2026

角色专业化：不同Agent专精不同领域

2025-2026

通信协议标准化：MCP扩展、A2A协议

2025

人机协作团队：人类作为Manager协调Agent

payments

商业模式

订阅制

Basic/Pro/Enterprise分层，生命周期价值高

技能市场

官方+第三方技能，平台抽成模式

开源+商业

核心开源，企业版增值功能

trending_up 行业渗透预测

软件开发

AI编程助手标配

金融

信创驱动国产替代

客服

可执行操作解决

医疗

病历、影像辅助

教育

个性化学习助手

menu_book 第四部分：名词解释

本报告中涉及的专业术语说明

smart_toy

Agent / 智能体

能够感知环境、理解任务、做出决策并执行行动的人工智能系统。在本报告中指能够在桌面上执行自动化任务的AI助手。

visibility

VLM

视觉语言模型，能够同时理解图像和文本的多模态模型。在桌面Agent中用于理解屏幕内容、识别UI元素。

build

RPA

机器人流程自动化，通过软件机器人模拟人类操作自动执行重复性业务流程的技术。

hub

MCP

Model Context Protocol，Anthropic推出的开放标准协议，用于规范AI助手与外部工具、数据源的通信连接。

psychology

LLM

Large Language Model，大语言模型，如GPT-4、Claude等基于Transformer的AI模型，能够理解和生成自然语言。

mouse

GUI Automation

图形用户界面自动化，通过模拟鼠标、键盘操作来控制图形界面的技术。

settings

System-Level Agent

系统级Agent，拥有操作系统原生集成权限，能够访问系统API、执行底层操作。

security

Sandbox / 沙箱

隔离的运行环境，用于安全地执行AI生成的代码，防止恶意操作影响主系统。

memory

端侧AI

Edge AI，在本地设备（而非云端）上运行的AI模型，强调数据隐私和低延迟响应。

speed

OSWorld

用于评估AI Agent操作计算机能力的基准测试，包含各种真实计算任务，Agent-S在此测试中达到72.60%超越人类水平。

hub

A2A Protocol

Agent-to-Agent Protocol，Google推出的开放协议，用于规范不同AI Agent之间的通信与协作。

extension

Function Calling

函数调用，LLM通过调用预定义函数来执行实际操作的能力，是Agent工具使用的基础。

article

Token

令牌，LLM处理文本的基本单位，通常一个词或词的一部分。API按token数量计费。

chat

Context Window

上下文窗口，LLM单次能处理的最大token数量，决定了Agent能记住多少对话历史。

tune

Prompt Engineering

提示词工程，通过设计优化输入提示来引导LLM产生更好输出的技术和方法。

straighten

Temperature

温度参数，控制LLM输出随机性的参数。较低值产生更确定性输出，较高值增加创造性。

dns

Grounding

接地，将AI输出与现实世界信息对齐的技术，确保Agent理解真实世界上下文。

storage

Vector Database

向量数据库，存储和检索向量嵌入的数据库，用于语义搜索、RAG等场景。

RAG

检索增强生成，通过结合外部知识库来增强LLM回答质量的技术。

record_voice_over

Whisper

OpenAI开发的开源语音识别模型，支持多语言高精度转录，常用于Agent语音输入。

volume_up

TTS

Text-to-Speech，文本转语音技术，将文本内容转换为自然语音输出的能力。

mic

VAD

Voice Activity Detection，语音活动检测，用于识别用户是否在说话的技术。

layers

Multi-modal

多模态，能够同时处理和理解多种类型数据（文本、图像、音频等）的AI模型能力。

science

Fine-tuning

微调，在预训练模型基础上使用特定数据集进行进一步训练，以适应特定任务或领域。

OS-Level AI Agents 桌面智能体深度调研

category 第一部分：产品全景

国内产品 8个

海外产品 10个

desktop_windows 系统级 Agent 深度操作系统集成

apps 桌面级 Agent 应用层Agent

code 框架级 Agent 开发框架与库

技术路线分布

地域分布

analytics 第二部分：深度分析

技术路线对比

视觉理解路线

代码执行路线

RPA自动化路线

市场竞争格局

corporate_fare 国际巨头

flag 国内厂商

趋势时间线 2026-2028

投资机会矩阵

基础模型层

开源框架层

国内龙头厂商

垂直行业应用

基础设施平台

端侧AI硬件

construction 第三部分：构建桌面 Agent 指南

技术选型决策树

desktop_mac 前端框架

dns 后端语言

psychology AI模型

核心模块设计

聊天界面

屏幕控制

代码执行

技能系统

MCP集成

浏览器控制

文件系统操作

语音交互

安全架构流程图

沙箱隔离

权限控制

操作确认

隐私保护

审计日志

开发规范检查清单

folder_copy 项目结构

api API设计规范

error 错误处理

checklist 测试策略

产品借鉴矩阵

技能管理 + MCP生态

VLM集成与GUI自动化

多渠道 + 本地优先

性能优化 + 学术研究

代码执行 + 本地优先

低代码 + 商业化

未来演进路线图

多模态融合

端侧AI

多Agent协作

商业模式

trending_up 行业渗透预测

menu_book 第四部分：名词解释

Agent / 智能体

VLM

RPA

MCP

LLM

GUI Automation

System-Level Agent

Sandbox / 沙箱

端侧AI

OSWorld

A2A Protocol

Function Calling

Token

Context Window

Prompt Engineering

Temperature

OS-Level AI Agents
桌面智能体深度调研