BrowseComp

This page shows how to evaluate BrowseComp results.

Evaluation Command

uv run scripts/eval.py \
  --agent <agent_name> \
  --benchmark BrowseComp \
  [options]

uv run scripts/eval.py \
  --agent browser-use \
  --benchmark BrowseComp

uv run scripts/eval.py \
  --agent browser-use \
  --benchmark BrowseComp \
  --force-reeval

Results are saved in experiments/BrowseComp/<Agent>/<Timestamp>/tasks_eval_result/. BrowseComp uses a Grader for evaluation. Results contain: