美团大模型一面面经
1、自我介绍
2、简历提问
RedPajama介绍,具体的一些signal是怎么计算的?
cpt用了多少B的数据,用的什么配置(12*8A800),训了多久?怎么评估能力的?
电子病历sft怎么做的?prompt长度多少?
3、面经
lstm是什么结构?transformer是什么结构?transformer相比于lstm有什么优势?
batch size和learning rate的关系?
讲一下随机梯度下降?怎么改善?为什么要加动量?
4、算法
一个有序数组平移后求指定元素索引。
2、简历提问
RedPajama介绍,具体的一些signal是怎么计算的?
cpt用了多少B的数据,用的什么配置(12*8A800),训了多久?怎么评估能力的?
电子病历sft怎么做的?prompt长度多少?
3、面经
lstm是什么结构?transformer是什么结构?transformer相比于lstm有什么优势?
batch size和learning rate的关系?
讲一下随机梯度下降?怎么改善?为什么要加动量?
4、算法
一个有序数组平移后求指定元素索引。
全部评论
怎么感觉和我面的一个部门
送花
回复
分享
相关推荐
不愿透露姓名的神秘牛友
05-11 00:44
已编辑
查看10道真题和解析
点赞 评论 收藏
转发
04-30 12:52
北京航空航天大学 计算机类 点赞 评论 收藏
转发