应该是要使用流处理将大文件通过哈西映射到非常多的小文件里,然后分别对比相同的哈西桶找到相同的字符串