数据去重用MinHash,不错