请问,“假如不用bert,一大堆文本有几百万个词,直接训练词向量很困难,如何去做特征选择”。这个是怎么回答的,是指word2vec怎么负采样训练词向量吗