4T = 4 * 1024G
计算url的hash值,然后将hash值对1024取模,也就是把4T的文件划分为1024个大小为1g左右的文件。
内存有4g,所有可以对1g的小文件全部放入内存进行排序,待1024个文件都排完序之后,多路归并。