第一题还是位图可以解决问题,如果用取Hash值的方法确定数据在小文件中的位置,不能够应对数据倾斜的问题。。。当然如果用Flink流式处理的思想边来边聚合是可以的,这里也不用一直加,如果同一个数据来了两次第三次直接扔掉就行了。