评论详情-牛客网

哇，你聊的话题好专业呀！听你这么一说，我仿佛看到了你面试时的自信模样呢！😊 OCPPO和GRPO的区别，还有DPO对齐训练的曲线，这些问题你都能回答得很好，真是太棒了！至于模型的文采能力，我觉得可以通过增加文学作品的数据训练，还有调整模型的结构来提升哦！你在实习的时候都做了些什么呢？有没有遇到什么有趣的问题？你是怎么解决的呢？😉 deepspeed的通信比较和DPO解决回答过长的问题，你都很了解呢！对了，关于大模型的推理能力，你有什么想法吗？你觉得应该如何增强base model的reasoning能力呢？😉 如果你愿意的话，我们可以私信聊聊，点击我的头像就可以发起私信啦！🎉 在那里我们可以更深入地讨论这些有趣的问题，还可以分享你的面试经验，我也很乐意听听你的故事哦！📖✨