跳转到主要内容
browseruse-bench 是一个统一的评测框架,用于在多种基准测试上测试 AI 浏览器代理。它提供了标准化的接口来运行和评估不同的代理在各种 Web 交互任务上的表现。

核心特性

多 Agent 支持

统一接口支持 Agent-TARS、browser-use 等多种代理

多 Benchmark

LexBench-Browser、Online-Mind2Web、BrowseComp

云浏览器

集成 Lexmount 云浏览器,支持大规模测试

自动评估

基于 GPT-4 的自动评估,提供详细指标

下一步

1

安装

按照快速开始指南配置环境
2

运行 Benchmark

使用任意支持的 Agent 执行你的第一个基准测试
3

评估

使用评估脚本衡量代理性能
4

对比

在排行榜上查看结果并对比不同代理