滴滴大模型面经

本人只做点业务数据sft, 做的更加偏向于粗糙业务,直接被拷打麻了,望佬看到可以给我指点一下

1. 现在有一个非常完备的sft指令集,你只能选择1w条,你如何选择数据来使模型的能力更加提升+完备?
2.我们知道sft的时候尽量不要注入知识给模型,因为只希望sft可以提升模型的指令遵循的能力,注入知识的话,可能会导致后面使用的时候模型容易出现幻觉,那我们怎么确保自己选择的这1w条数据没注入知识给模型呢?
3.7b和13b模型微调同一批数据,学习率哪个大?
4. Pretrain/sft/ppo学习率怎么变换?
5. 学习率和batch大小变化一致吗?
6. 做表征学习的时候,模型坍塌的原因?
7. 为什么做rm的时候,用不同的小模型大模型来采样生成后训练出来的rm会比以前那种方法奏效?这很反直觉,因为按照直觉来说的话,这种方式可能会让rm偏向某个权威的模型
8. 现在有很多种方法,有做完pt直接做rlhf的,也有按班就步的pt-sft-rlhf的,还有直接不做rlhf的,你觉得为什么这些方法都有效,你觉得是什么原因造成的?

#滴滴##秋招##面经#  #算法#  #八股#
全部评论
搞这么细啊。有些答案可以去llama3.1的技术报告参考,其他的等大佬回答
6 回复 分享
发布于 2024-09-14 15:37 陕西
通常lr缩放倍数为batch size倍数的开方。例如batch size增大4倍,学习率对应扩大2倍即可。
4 回复 分享
发布于 2024-09-14 20:40 辽宁
对TEMU有想法的戳我哈
1 回复 分享
发布于 2024-09-22 15:45 上海
佬这是几面啊,滴滴是连着面吗🙌
1 回复 分享
发布于 2024-09-15 01:15 广东
蹲蹲答案
1 回复 分享
发布于 2024-09-14 18:14 美国
蹲蹲答案
点赞 回复 分享
发布于 2024-10-03 00:59 安徽
我们这大模型搜推方向 来试试嘛
点赞 回复 分享
发布于 2024-09-23 16:04 上海

相关推荐

结合最近辅助修改的简历及项目,老师总结了部分大模型微调简历的踩雷点。🙅‍♂️错误示范:在 x任务中,获取 xxx 条数据,通过规则 or 脚本清洗出 x 条数据,然后微调 y 大模型,在业务上提升 x 个点。✍🏻原因:大模型微调的平台是现成的,基模是现成的,体现不出核心能力。✅应该怎么写?首先介绍业务背景:业务是一个销售对话业务,机器人是销售,代替真人,直接面对用户。我们会给模型设定任务,任务是 prompt 。步骤1️⃣.提取训练数据问题:1.真人通话每通电话任务是未知的,我们训练数据是任务+通话的 pair 对。2.真人通话很乱,与客户的对话是各种交叉的,导致 asr 后并不是一人一轮。解决方案:1.首先通过大模型 prompt 对该通电话提取任务,得到任务+ pair 对。需要用到 cot + reflection +多 Ilm 一致性+ debating 的模式。2.使用大模型根据以上任务和真人对话,让大模型编写出通话内容。提问,为什么要编写而不是直接用?步骤2️⃣.制定训练数据集问题:1、正常的对话内容,前面几句和后面几句基本上一致的。都是问候和拜拜,但是也有一些差异。2、因为都是相似场景,虽然任务不同,但是很多场景语义很相似。解决方案:1、基于轮次的权重采样:通过轮次设定权重进行 weighting sample 。解决问候和拜拜的高占比问题。2、基于语义的采样:使用 bert 对对话内容进行 embedding ,然后使用层次聚类通过调节阈值聚类出相似语义的类。对一个类里的样本进行随机采样,提问,为什么要对重复语义的数据进行下采样?3、基于客户类型和产品的采样,因为很多产品是热品,导致对话内容有偏,用户类型一样,需按照类型调整整体比例采样。提问,为什么要这么采样?步骤3️⃣.制定训练数据集我们直接把输出当作 target 进行训练。使用的 lora 训练,但是 lora alpha 设定成为4倍的时候达到了比较好的效果,经验值不同任务不一样,提问,在各种情况下要怎么调?步骤4️⃣.dpo训练问题:v1版本训练时,很多输出内容是对的,但是输出的语气不太像真人,机器人味还是很严重。解决方案:由于训练本身是有 ground truth 的,因此使用v1训练的模型,预测训练集,使用大模型对比两者语气不符合训练集的拿出来,使用训练集的 ground truth 和模型的预测数据作为 dpo 训练对,对v1版本模型重新训练。📳这里老师只是简要进行概括解答,具体情况和详细解答可以咨询辅导,如果想了解项目辅导,提升面试能力,欢迎后台联系。#算法# #简历中的项目经历要怎么写# #算法岗面试# #互联网大厂招聘#
点赞 评论 收藏
分享
评论
23
85
分享

创作者周榜

更多
牛客网
牛客企业服务