人工标注评测,模型评测,benchmark这些吧,我记得通义刚开源了一个OpenJudge框架,支持离线和在线评测,和做基准测试,现在基模和Agent的自动化评测感觉也是一个好的方向