BrowseComp

本页展示如何评估 BrowseComp 的运行结果。

评估命令

uv run scripts/eval.py \
  --agent <agent_name> \
  --benchmark BrowseComp \
  [其他参数]

uv run scripts/eval.py \
  --agent browser-use \
  --benchmark BrowseComp

uv run scripts/eval.py \
  --agent browser-use \
  --benchmark BrowseComp \
  --force-reeval

结果保存在 experiments/BrowseComp/<Agent>/<Timestamp>/tasks_eval_result/ 目录下。 BrowseComp 使用 Grader 进行评估，评估结果包含：