1. 未登录词会通过词根词缀分割之后再转成embedding吧,在论文embedding部分有引用一个前人的工作 2. 残差网络是在transformer的(add&layer norm)层吧,把经过attention前后的embedding做加法