现在想想, 第一题可能是: 先切分分区,然后看有无数据倾斜,如果有加盐打散 然后开始预聚合(大概) 然后就考虑按什么聚合,什么业务需求 估计还要sort merge join,归并排序+溢写