UI-TARS Desktop

2025-08-22AI专业工具 / 桌面自动化6306 次浏览

综合介绍

UI-TARS Desktop 是由字节跳动开源的多模态AI代理栈，旨在通过自然语言和视觉能力实现桌面和浏览器的自动化操作。它基于强大的视觉-语言模型，支持用户通过简单指令完成复杂任务。UI-TARS Desktop 提供本地化的桌面应用程序，结合 Seed-1.5-VL/1.6 模型，能够处理屏幕内容、执行鼠标和键盘操作，并在本地或远程环境中运行。项目遵循 Apache 2.0 许可，适合开发者、研究人员和普通用户使用，目标是打造接近人类操作的智能工作流。

功能列表

自然语言控制：用户通过文字指令控制电脑或浏览器，简化操作流程。
屏幕视觉理解：识别屏幕内容，精准定位界面元素，如按钮、输入框等。
桌面操作自动化：支持鼠标点击、拖拽、键盘输入、滚动等常见操作。
浏览器操作支持：兼容 Chrome、Edge 和 Firefox，执行网页导航、表单填写等任务。
远程操作功能：通过“远程电脑操作”和“远程浏览器操作”实现云端控制（目前仅限中国大陆）。
多模型选择：提供 2B、7B、72B 三种模型规模，适配不同硬件需求。
脚本编辑器：内置脚本编辑器，允许用户自定义自动化脚本。
跨平台支持：适用于 Windows、Linux 和 macOS 系统。

使用帮助

安装流程

克隆代码库：访问官方 GitHub 仓库 https://github.com/bytedance/UI-TARS-desktop，使用命令 git clone https://github.com/bytedance/UI-TARS-desktop.git 下载源码。
选择模型规模：UI-TARS 提供 2B、7B 和 72B 三种模型规模。7B 模型适合大多数用户，平衡性能和硬件需求。检查设备性能，选择适合的模型。[](https://ui-tarsai.com/)
安装依赖：进入项目目录，运行 pip install -r requirements.txt 安装必要的 Python 库。确保 Python 版本符合要求（通常为 3.8 或以上）。
配置环境：根据 README.md 或 Quick Start 指南，设置模型路径和环境变量。确保授予应用程序必要的权限，如屏幕访问和输入控制。
运行程序：启动 UI-TARS Desktop 应用程序，打开主界面。用户可通过界面或命令行与 AI 交互。

主要功能操作

1. 自然语言控制

用户在 UI-TARS Desktop 的聊天面板输入指令，例如“打开 VS Code 并启用自动保存”。AI 会解析指令，识别屏幕上的 VS Code 图标，执行点击操作，并进入设置界面。指令需清晰，建议使用具体描述，如“在 VS Code 设置中将自动保存延迟设为 500 毫秒”。

2. 屏幕视觉理解

UI-TARS 使用 Seed-1.5-VL/1.6 模型分析屏幕内容。例如，处理任务“在浏览器中搜索杭州天气”时，AI 识别浏览器窗口，定位搜索栏，输入关键词并提交。用户可通过截图增强指令效果，方法是在聊天面板上传屏幕截图并附带指令。

3. 桌面和浏览器操作

桌面操作：支持单机、双击、右键、拖拽、键盘快捷键等。例如，指令“打开文件管理器并新建文件夹”会触发 AI 在桌面环境中执行相应动作。
浏览器操作：支持网页导航、表单填写、点击链接等。例如，指令“在 booking.com 上搜索洛杉矶的 Ritz-Carlton 酒店”会引导 AI 打开浏览器，访问网站并输入搜索条件。
远程操作：在 v0.2.0 版本中，新增“远程电脑操作”和“远程浏览器操作”功能。用户点击主界面上的“Use Remote Computer”或“Use Remote Browser”按钮，AI 将通过云端控制设备。每次会话提供 30 分钟免费使用时间，结束后可立即开启新会话（目前仅限中国大陆）。

4. 脚本编辑器

UI-TARS Desktop 提供内置脚本编辑器，位于主界面“脚本”选项卡。用户可编写 Python 脚本定义自动化任务。例如，创建一个脚本自动打开浏览器、访问特定网站并登录。脚本模板位于 codes/ui_tars/prompt.py，支持桌面和移动设备任务。用户需熟悉 Python 基础，参考官方文档编写脚本。

5. 模型选择与优化

2B 模型：适合低性能设备，适用于简单任务，如文件管理。
7B 模型：推荐用于大多数桌面和浏览器任务，性能均衡。
72B 模型：适合复杂任务，如游戏场景或大规模自动化，但需高性能硬件。用户可根据设备配置在设置中选择模型。

操作注意事项

权限设置：确保 UI-TARS 有屏幕录制和输入控制权限，否则可能无法执行操作。
指令清晰：避免模糊指令，如“帮我做事”，应明确任务目标和步骤。
浏览器兼容性：支持 Chrome、Edge 和 Firefox 的主流版本，建议更新浏览器以获得最佳体验。
安全提示：UI-TARS-1.5 可能通过 CAPTCHA 等验证，需谨慎使用，避免未经授权的自动化操作。

进阶使用

与 MCP 工具集成：UI-TARS 支持 MCP 服务器挂载，连接外部工具实现复杂任务，如自动预订机票或生成数据图表。用户需参考 README.md 配置 MCP 环境。
研究用途：研究人员可申请 UI-TARS-1.5 模型早期访问权限，联系邮箱 TARS@bytedance.com，获取更强大的模型进行实验。

应用场景

日常办公自动化用户通过指令“在 Excel 中整理表格并按列排序”实现数据处理自动化。UI-TARS 识别 Excel 界面，执行排序操作，节省手动操作时间。
网页任务自动化例如，指令“在 Priceline 上预订 9 月 1 日从圣何塞到纽约的机票”可让 AI 自动打开浏览器，搜索航班并完成预订。
开发者工作流优化开发者可编写脚本自动化测试流程，如“在 VS Code 中运行测试用例并保存结果”。UI-TARS 执行代码运行和文件保存，提高开发效率。
远程设备管理在中国大陆，用户可通过远程操作功能控制云端电脑，适合管理服务器或执行批量任务，如“批量下载文件并整理”。

QA

UI-TARS Desktop 是否需要联网？本地模式下无需联网，模型和功能可离线运行。远程操作功能需联网，仅限中国大陆。
如何选择适合的模型规模？2B 适合低配设备，7B 适合日常任务，72B 适合高性能需求。推荐大多数用户使用 7B 模型。
支持哪些操作系统？UI-TARS 支持 Windows、Linux 和 macOS，具体安装步骤参考 GitHub 仓库的 README.md。
如何处理操作失败？检查权限设置，确保指令清晰。若问题持续，查看日志文件（位于安装目录的 logs 文件夹）或参考 GitHub 上的 CONTRIBUTING.md。