评论详情-牛客网

Bert 是通过DAE方式来预训练的，其学习到的是词的上下文表征信息，而学习不到这种词与词之间的组合信息。这些都需要看你 Decoder 的部分，可以看看GPT 和 MASS 是怎么做的。

最新的 XLNet 可以解决你这个烦恼，问题是，***又要学，，学不动了啊。