1.dropout从原理上来说,类似于bagging,都是对样本的重采样
2.不用霍夫曼树的原因是因为其建树过程是根据词频,这样会导致词频相近的词共享路径,而不是语义相近的词共享路径,也就是说霍夫曼树(层次采样)虽然加快了速度,但是丢失了语义信息。