跳转到主要内容
Online-Mind2Web 是基于 Mind2Web 数据集的在线评测基准,测试 Agent 在真实网站上的导航和交互能力。

概览

属性
来源Mind2Web 数据集
任务类型网页导航和交互
目标网站真实英文网站
评估方式WebJudge 语义匹配

任务特点

真实网站

测试在真实网站上的操作能力,而非模拟环境

多步骤任务

需要多个连续步骤完成复杂目标

语义评估

使用 WebJudge 进行语义匹配评估

无需登录

所有任务均无需登录即可执行

快速开始

运行任务

# 运行前 3 个任务
uv run scripts/run.py \
  --agent browser-use \
  --benchmark Online-Mind2Web \
  --mode first_n \
  --count 3

# 运行全部任务
uv run scripts/run.py \
  --agent Agent-TARS \
  --benchmark Online-Mind2Web \
  --mode all \
  --skip-completed

评估结果

uv run scripts/eval.py --agent browser-use --benchmark Online-Mind2Web

评估指标

指标说明
Task Success Rate任务完成率
Action Accuracy操作准确率
Element Accuracy元素定位准确率

数据格式

任务数据存储在 benchmarks/Online-Mind2Web/data/
{
  "task_id": "b7258ee05d75e6c50673a59914db412e_110325",
  "confirmed_task": "Find the store location and hours of the closest Trader Joe's to zip code 90028 and set it as my home store.",
  "website": "https://www.traderjoes.com/",
  "reference_length": 6,
  "level": "medium"
}

相关链接