评论详情-牛客网

我的理解是因为对话系统理论上输入是无限长的，随着轮数增加输入会越来越长，不同轮数长度差距很大，encoder采用pad的方式不擅长做这种长度区间差异过大的问题，而且只有decoder情况下，预训练和sft只是数据上不同，训练上差别不大