一般都是先分治比如hash散列到多个小文件,然后对每个小文件用hash或trie树统计出现次数,最后每个文件中次数最高的再比较一次