Bert 是通过DAE方式来预训练的,其学习到的是词的上下文表征信息,而学习不到这种词与词之间的组合信息。 这些都需要看你 Decoder 的部分,可以看看GPT 和 MASS 是怎么做的。 

最新的 XLNet 可以解决你这个烦恼,问题是,***又要学,,学不动了啊。