如果总的单词数不是10万,而是百亿的数据量,那么最开始得用哈希分流的思路来处理。