大文件按某种哈希算法,切割成可读进内存的小文件,保证同一单词都放到一个小文件即可,然后分别统计每个小文件中单词的出现次数。最后用一个最小堆做统计。依次分别读取这些小文件,统计出top1000 。 这样应该可行吧