跳转到主要内容
本页展示如何评估 BrowseComp 的运行结果。

评估命令

uv run scripts/eval.py \
  --agent <agent_name> \
  --benchmark BrowseComp \
  [其他参数]

基本评估

uv run scripts/eval.py \
  --agent browser-use \
  --benchmark BrowseComp

强制重新评估

uv run scripts/eval.py \
  --agent browser-use \
  --benchmark BrowseComp \
  --force-reeval

评估结果

结果保存在 experiments/BrowseComp/<Agent>/<Timestamp>/tasks_eval_result/ 目录下。 BrowseComp 使用 Grader 进行评估,评估结果包含:
  • predicted_label:1 = 成功,0 = 失败
  • grader_response:评估详情