Agent-TARS

Agent-TARS 是由 TARS 团队开发的浏览器代理，以 npm CLI 包的形式发布，提供强大的浏览器自动化能力。

安装

npm install -g @agent-tars/cli@0.3.0

请确保已安装 Node.js 18+ 版本。

配置

先复制示例配置，再编辑：

cp agents/Agent-TARS/config.yaml.example agents/Agent-TARS/config.yaml

编辑 agents/Agent-TARS/config.yaml：

# Agent-TARS 配置文件

# 模型提供商
MODEL_PROVIDER: volcengine  # 或 openai, anthropic

# 模型 ID
MODEL_ID: doubao-1-5-thinking-vision-pro-250428

# API Key
MODEL_APIKEY: your_api_key_here

# API Base URL（可选，某些模型提供商需要）
# MODEL_BASEURL: https://api.example.com/v1

# 浏览器控制模式（推荐：dom, hybrid）
BROWSER_CONTROL: hybrid

# 任务超时时间（秒），可通过 --timeout 命令行参数覆盖
TIMEOUT: 300

支持的模型

模型	提供商	说明
`gpt-4o`	OpenAI	GPT-4o 多模态模型
`claude-3.7-sonnet`	Anthropic	Claude 3.7 Sonnet
`Seed1.5-VL`	字节跳动	豆包视觉语言模型

配置说明

参数	说明	示例值
`MODEL_PROVIDER`	模型提供商	`openai`, `anthropic`, `volcengine`
`MODEL_ID`	模型 ID	`gpt-4o`, `claude-3.7-sonnet`
`MODEL_APIKEY`	API 密钥	你的 API Key
`BROWSER_CONTROL`	浏览器控制模式	`dom`, `hybrid`
`TIMEOUT`	任务超时时间（秒）	默认 `300`，可通过 `--timeout` 覆盖

使用示例

基础运行

# 运行 LexBench-Browser 前 3 个任务
uv run scripts/run.py \
  --agent Agent-TARS \
  --benchmark LexBench-Browser \
  --mode first_n \
  --count 3

# 运行 Online-Mind2Web
uv run scripts/run.py \
  --agent Agent-TARS \
  --benchmark Online-Mind2Web \
  --mode first_n \
  --count 3

运行全部任务

# 运行全部任务，跳过已完成的
uv run scripts/run.py \
  --agent Agent-TARS \
  --benchmark LexBench-Browser \
  --mode all \
  --skip-completed

调试模式

uv run scripts/run.py \
  --agent Agent-TARS \
  --benchmark LexBench-Browser \
  --mode first_n \
  --count 1 \
  --debug

评估

# 评估 Agent-TARS 在 LexBench-Browser 上的结果
uv run scripts/eval.py --agent Agent-TARS --benchmark LexBench-Browser

# 评估 Online-Mind2Web 结果
uv run scripts/eval.py --agent Agent-TARS --benchmark Online-Mind2Web

支持的 Benchmarks

✅ LexBench-Browser
✅ Online-Mind2Web
✅ BrowseComp

云浏览器支持

Agent-TARS 现已支持 Lexmount 云浏览器！只需在运行时指定 --browser lexmount 即可使用云端浏览器运行任务。

开始

功能

示例

开发

安装

配置

支持的模型

配置说明

使用示例

基础运行

运行全部任务

调试模式

评估

支持的 Benchmarks

云浏览器支持

相关链接

开始

功能

示例

开发

​安装

​配置

​支持的模型

​配置说明

​使用示例

​基础运行

​运行全部任务

​调试模式

​评估

​支持的 Benchmarks

​云浏览器支持

​相关链接

安装

配置

支持的模型

配置说明

使用示例

基础运行

运行全部任务

调试模式

评估

支持的 Benchmarks

云浏览器支持

相关链接