评估命令
基本评估
强制重新评估
评估结果
结果保存在experiments/BrowseComp/<Agent>/<Timestamp>/tasks_eval_result/ 目录下。
BrowseComp 使用 Grader 进行评估,评估结果包含:
predicted_label:1 = 成功,0 = 失败grader_response:评估详情
BrowseComp 评估指南
experiments/BrowseComp/<Agent>/<Timestamp>/tasks_eval_result/ 目录下。
BrowseComp 使用 Grader 进行评估,评估结果包含:
predicted_label:1 = 成功,0 = 失败grader_response:评估详情