目录结构
每个 Benchmark 需要以下目录结构:Step 1: 创建任务数据
tasks.json 格式
必需字段
| 字段 | 类型 | 说明 |
|---|---|---|
task_id | string | 唯一任务 ID |
task | string | 任务描述 |
可选字段
| 字段 | 类型 | 说明 |
|---|---|---|
website | string | 目标网站 |
category | string | 任务类别 |
expected_result | string | 期望结果 |
requires_login | boolean | 是否需要登录 |
difficulty | string | 难度等级 |
Step 2: 创建数据信息文件
data_info.json
Split 过滤规则
null:包含所有任务{"field": "value"}:按字段值过滤{"field": ["v1", "v2"]}:按字段值列表过滤
Step 3: 创建评估器(可选)
如果需要自定义评估逻辑,创建evaluator.py:
Step 4: 注册 Benchmark
在browseruse_bench/benchmarks/__init__.py 中注册:
Step 5: 测试
完整示例
查看现有 Benchmark 作为参考:benchmarks/LexBench-Browser/- 完整的 Benchmark 实现benchmarks/Online-Mind2Web/- Mind2Web 集成示例benchmarks/BrowseComp/- 简单 Benchmark 示例