评论详情-牛客网

Reward model 如何训练？Reward model 你觉得训练到什么程度可以？Reward model不准确怎么办？Rewar model和训练的LLM模型用同一个基座模型可能有什么作用？这几个问题佬怎么回答的啊