UI-TARS Desktop
扫码查看

开源的AI桌面自动化工具

UI-TARS Desktop

综合介绍

UI-TARS Desktop 是由字节跳动开源的多模态AI代理栈,旨在通过自然语言和视觉能力实现桌面和浏览器的自动化操作。它基于强大的视觉-语言模型,支持用户通过简单指令完成复杂任务。UI-TARS Desktop 提供本地化的桌面应用程序,结合 Seed-1.5-VL/1.6 模型,能够处理屏幕内容、执行鼠标和键盘操作,并在本地或远程环境中运行。项目遵循 Apache 2.0 许可,适合开发者、研究人员和普通用户使用,目标是打造接近人类操作的智能工作流。

功能列表

  • 自然语言控制:用户通过文字指令控制电脑或浏览器,简化操作流程。
  • 屏幕视觉理解:识别屏幕内容,精准定位界面元素,如按钮、输入框等。
  • 桌面操作自动化:支持鼠标点击、拖拽、键盘输入、滚动等常见操作。
  • 浏览器操作支持:兼容 Chrome、Edge 和 Firefox,执行网页导航、表单填写等任务。
  • 远程操作功能:通过“远程电脑操作”和“远程浏览器操作”实现云端控制(目前仅限中国大陆)。
  • 多模型选择:提供 2B、7B、72B 三种模型规模,适配不同硬件需求。
  • 脚本编辑器:内置脚本编辑器,允许用户自定义自动化脚本。
  • 跨平台支持:适用于 Windows、Linux 和 macOS 系统。

使用帮助

安装流程

  1. 克隆代码库:访问官方 GitHub 仓库 https://github.com/bytedance/UI-TARS-desktop,使用命令 git clone https://github.com/bytedance/UI-TARS-desktop.git 下载源码。
  2. 选择模型规模:UI-TARS 提供 2B、7B 和 72B 三种模型规模。7B 模型适合大多数用户,平衡性能和硬件需求。检查设备性能,选择适合的模型。[](https://ui-tarsai.com/)
  3. 安装依赖:进入项目目录,运行 pip install -r requirements.txt 安装必要的 Python 库。确保 Python 版本符合要求(通常为 3.8 或以上)。
  4. 配置环境:根据 README.md 或 Quick Start 指南,设置模型路径和环境变量。确保授予应用程序必要的权限,如屏幕访问和输入控制。
  5. 运行程序:启动 UI-TARS Desktop 应用程序,打开主界面。用户可通过界面或命令行与 AI 交互。

主要功能操作

1. 自然语言控制

用户在 UI-TARS Desktop 的聊天面板输入指令,例如“打开 VS Code 并启用自动保存”。AI 会解析指令,识别屏幕上的 VS Code 图标,执行点击操作,并进入设置界面。指令需清晰,建议使用具体描述,如“在 VS Code 设置中将自动保存延迟设为 500 毫秒”。

2. 屏幕视觉理解

UI-TARS 使用 Seed-1.5-VL/1.6 模型分析屏幕内容。例如,处理任务“在浏览器中搜索杭州天气”时,AI 识别浏览器窗口,定位搜索栏,输入关键词并提交。用户可通过截图增强指令效果,方法是在聊天面板上传屏幕截图并附带指令。

3. 桌面和浏览器操作

  • 桌面操作:支持单机、双击、右键、拖拽、键盘快捷键等。例如,指令“打开文件管理器并新建文件夹”会触发 AI 在桌面环境中执行相应动作。
  • 浏览器操作:支持网页导航、表单填写、点击链接等。例如,指令“在 booking.com 上搜索洛杉矶的 Ritz-Carlton 酒店”会引导 AI 打开浏览器,访问网站并输入搜索条件。
  • 远程操作:在 v0.2.0 版本中,新增“远程电脑操作”和“远程浏览器操作”功能。用户点击主界面上的“Use Remote Computer”或“Use Remote Browser”按钮,AI 将通过云端控制设备。每次会话提供 30 分钟免费使用时间,结束后可立即开启新会话(目前仅限中国大陆)。

4. 脚本编辑器

UI-TARS Desktop 提供内置脚本编辑器,位于主界面“脚本”选项卡。用户可编写 Python 脚本定义自动化任务。例如,创建一个脚本自动打开浏览器、访问特定网站并登录。脚本模板位于 codes/ui_tars/prompt.py,支持桌面和移动设备任务。用户需熟悉 Python 基础,参考官方文档编写脚本。

5. 模型选择与优化

  • 2B 模型:适合低性能设备,适用于简单任务,如文件管理。
  • 7B 模型:推荐用于大多数桌面和浏览器任务,性能均衡。
  • 72B 模型:适合复杂任务,如游戏场景或大规模自动化,但需高性能硬件。用户可根据设备配置在设置中选择模型。

操作注意事项

  • 权限设置:确保 UI-TARS 有屏幕录制和输入控制权限,否则可能无法执行操作。
  • 指令清晰:避免模糊指令,如“帮我做事”,应明确任务目标和步骤。
  • 浏览器兼容性:支持 Chrome、Edge 和 Firefox 的主流版本,建议更新浏览器以获得最佳体验。
  • 安全提示:UI-TARS-1.5 可能通过 CAPTCHA 等验证,需谨慎使用,避免未经授权的自动化操作。

进阶使用

  • 与 MCP 工具集成:UI-TARS 支持 MCP 服务器挂载,连接外部工具实现复杂任务,如自动预订机票或生成数据图表。用户需参考 README.md 配置 MCP 环境。
  • 研究用途:研究人员可申请 UI-TARS-1.5 模型早期访问权限,联系邮箱 TARS@bytedance.com,获取更强大的模型进行实验。

应用场景

  1. 日常办公自动化用户通过指令“在 Excel 中整理表格并按列排序”实现数据处理自动化。UI-TARS 识别 Excel 界面,执行排序操作,节省手动操作时间。
  2. 网页任务自动化例如,指令“在 Priceline 上预订 9 月 1 日从圣何塞到纽约的机票”可让 AI 自动打开浏览器,搜索航班并完成预订。
  3. 开发者工作流优化开发者可编写脚本自动化测试流程,如“在 VS Code 中运行测试用例并保存结果”。UI-TARS 执行代码运行和文件保存,提高开发效率。
  4. 远程设备管理在中国大陆,用户可通过远程操作功能控制云端电脑,适合管理服务器或执行批量任务,如“批量下载文件并整理”。

QA

  1. UI-TARS Desktop 是否需要联网?本地模式下无需联网,模型和功能可离线运行。远程操作功能需联网,仅限中国大陆。
  2. 如何选择适合的模型规模?2B 适合低配设备,7B 适合日常任务,72B 适合高性能需求。推荐大多数用户使用 7B 模型。
  3. 支持哪些操作系统?UI-TARS 支持 Windows、Linux 和 macOS,具体安装步骤参考 GitHub 仓库的 README.md
  4. 如何处理操作失败?检查权限设置,确保指令清晰。若问题持续,查看日志文件(位于安装目录的 logs 文件夹)或参考 GitHub 上的 CONTRIBUTING.md
微信微博Email复制链接