美团基础研发 大模型算法工程师实习面经

一面

  • 自我介绍
  • 项目+论文
  • 为啥项目中使用Ptuning?
  • 说一下Ptuning的原理
  • 如何关注训练过程中的指标? 训练步数如何确定?
  • RLHF的整个流程详细
  • llama factory代码看过吗?
  • DPO了解吗?
  • 算法题 二分,medium, 旋转数组的最小数字

二面

二面面试官问了很多开放性问题,就是丢给你一个一个问题/实际的步骤,问你怎么解决,怎么考虑,而不是问某某东西的原理

  • 自我介绍
  • 项目
  • 训练大模型的数据如何弄的?
  • RLHF的三个流程中你觉得哪个应该是最重要的?为什么?
  • 为啥RLHF中要用PPO?和其他RL算法的区别?
  • 为什么需要Rewar model?
  • Reward model 如何训练?Reward model 你觉得训练到什么程度可以?
  • Reward model不准确怎么办?
  • 如何提升RLHF的效率?你认为关键在哪里?
  • DPO的原理?
  • Rewar model和训练的LLM模型用同一个基座模型可能有什么作用?
  • Reward有多个目标可以怎么做?
  • 算法题 爬楼梯 面试官会引导逐步改善最开始写的解优化算法到最优空间复杂度
#面经##美团##大模型#
全部评论
佬是项目里用了RLHF吗
2 回复
分享
发布于 03-25 09:16 江苏
佬什么时候面的
点赞 回复
分享
发布于 03-25 17:26 北京
联想
校招火热招聘中
官网直投
Reward model 如何训练?Reward model 你觉得训练到什么程度可以?Reward model不准确怎么办?Rewar model和训练的LLM模型用同一个基座模型可能有什么作用?这几个问题 佬怎么回答的啊
点赞 回复
分享
发布于 04-06 14:43 广东

相关推荐

头像
04-18 10:54
已编辑
东北大学 计算机类
全程50分钟,被拷打得半死的一集😭1.自我介绍2.拷打第一个项目,这面试官确实很懂技术,疯狂拷打,我的是一个RAG的项目,我讲到构建向量数据库的时候问我用的embedding模型的结构是什么,输出向量的维度,用的切分段落的模型的结构,然后我讲到lora微调又让我将lora的细节,讲lora训练过程中transformer更新哪些参数;然后让我讲chatglm123怎么变化的;最后让我讲缓解幻觉的方式,总之鼠鼠被问的戴上了痛苦面具😭3.拷打第二个项目,我的是一个论文的项目,然后我共享桌面讲论文,这将成为今天最轻松的时刻4.问我问题,问了我transformer结构,我开始吟唱,结果刚吟唱就被打断,问我输入的向量纬度,然后我吟唱到多头注意力的时候问我为什么要除以根号dk,然后说到layer norm的时候问我对哪个纬度做归一化,直接被拷打麻了😭5.代码题,反转链表,由于个人习惯我用了一种把节点存在list里的方法,做完又让我讲不用list的方法这次拷打让我极其难崩😭看来基础知识还是学的不够细———————————————————问了认识的主管,说下周给我发offer米孝子,启动!———————————————————-发了offer,签了顺便问下路过的佬有没有去武汉小米实习的,可以交流一下,组个饭搭子什么的 #算法#  #面试时最害怕被问到的问题#  #面试中的破防瞬间#  #简历被挂麻了,求建议#  #软件开发2024笔面经#
点赞 评论 收藏
转发
9 66 评论
分享
牛客网
牛客企业服务