模型怎么做的,微调数据集怎么做的,强化学习训练怎么训的,如果继续改进,你会怎么改进