概览
| 属性 | 值 |
|---|---|
| 来源 | Mind2Web 数据集 |
| 任务类型 | 网页导航和交互 |
| 目标网站 | 真实英文网站 |
| 评估方式 | WebJudge 语义匹配 |
任务特点
真实网站
测试在真实网站上的操作能力,而非模拟环境
多步骤任务
需要多个连续步骤完成复杂目标
语义评估
使用 WebJudge 进行语义匹配评估
无需登录
所有任务均无需登录即可执行
快速开始
运行任务
评估结果
评估指标
| 指标 | 说明 |
|---|---|
| Task Success Rate | 任务完成率 |
| Action Accuracy | 操作准确率 |
| Element Accuracy | 元素定位准确率 |
数据格式
任务数据存储在benchmarks/Online-Mind2Web/data/: