bert预训练两个任务:
1.Masked LM, 判断Masked token在是否属于上下文,softmax 输出,loss 计算 Mask token位置的交叉熵
2.Next Sentence Prediction,上下文判断,判断两句话上下文关系是否成立,sigmoid输出,类似于逻辑斯特回归二分类