介绍 - browseruse-bench

browseruse-bench 是一个统一的评测框架，用于在多种基准测试上测试 AI 浏览器代理。它提供了标准化的接口来运行和评估不同的代理在各种 Web 交互任务上的表现。

快速开始

5 分钟内完成环境配置

支持的 Agents

查看所有支持的浏览器代理

Benchmarks

探索可用的基准测试

排行榜

查看代理性能排名

核心特性

多 Agent 支持

统一接口支持 Agent-TARS、browser-use 等多种代理

多 Benchmark

LexBench-Browser、Online-Mind2Web、BrowseComp

云浏览器

集成 Lexmount 云浏览器，支持大规模测试

自动评估

基于 GPT-4 的自动评估，提供详细指标

下一步

安装

按照快速开始指南配置环境

运行 Benchmark

使用任意支持的 Agent 执行你的第一个基准测试

评估

使用评估脚本衡量代理性能

对比

在排行榜上查看结果并对比不同代理

开始

功能

示例

开发

介绍

快速开始

支持的 Agents

Benchmarks

排行榜

核心特性

多 Agent 支持

多 Benchmark

云浏览器

自动评估

下一步

开始

功能

示例

开发

快速开始

支持的 Agents

Benchmarks

排行榜

​核心特性

多 Agent 支持

多 Benchmark

云浏览器

自动评估

​下一步

核心特性

下一步