美团大模型一面面经

1、自我介绍
2、简历提问
RedPajama介绍,具体的一些signal是怎么计算的?
cpt用了多少B的数据,用的什么配置(12*8A800),训了多久?怎么评估能力的?
电子病历sft怎么做的?prompt长度多少?
3、面经
lstm是什么结构?transformer是什么结构?transformer相比于lstm有什么优势?
batch size和learning rate的关系?
讲一下随机梯度下降?怎么改善?为什么要加动量?
4、算法
一个有序数组平移后求指定元素索引。
全部评论
怎么感觉和我面的一个部门
2
送花
回复
分享
发布于 04-07 16:56 北京

相关推荐

7 33 评论
分享
牛客网
牛客企业服务