评论详情-牛客网

人工标注评测，模型评测，benchmark这些吧，我记得通义刚开源了一个OpenJudge框架，支持离线和在线评测，和做基准测试，现在基模和Agent的自动化评测感觉也是一个好的方向