跳转到主要内容
browseruse-bench 集成了多个主流的浏览器评测基准,覆盖不同类型的 Web 交互任务。

已支持的 Benchmarks

功能对比

Benchmark任务数语言评估方式需要登录
LexBench-Browser340中文WebJudge部分需要
Online-Mind2Web~100英文WebJudge
BrowseComp~50英文Grader

快速对比运行

# LexBench-Browser(推荐,无需登录子集)
uv run scripts/run.py --agent browser-use --benchmark LexBench-Browser --split no_login --mode first_n --count 5

# Online-Mind2Web
uv run scripts/run.py --agent browser-use --benchmark Online-Mind2Web --mode first_n --count 5

# BrowseComp
uv run scripts/run.py --agent browser-use --benchmark BrowseComp --mode first_n --count 5

计划支持

  • 更多 Benchmark
如果你希望添加新的 Benchmark,请参考自定义 Benchmark 指南。