评论详情-牛客网

3. 事实表关联维表一般是大小表join 即事实表大维表小或者维表大事实表属于增量数据比较小楼主说的情况事实表很大维表也很大大数据处理其实不怕数据量大而怕分布不均匀数据倾斜是说事实表中数据有集中分布情况1：数据其实比较均匀但经过hash后某个分区数据就很多可以尝试下调整分区数可能有效虽然大多情况下没用情况2：事实表存在长尾效应头部严重集中比如淘宝的全体店铺的销售流水表关联店铺维表头部店铺的销量一定是非常大的对于这种的可以分开处理 select t1.*,t2.* from ( select * from fact_table where id in (1,2,3) -- 这三家店铺是头部单独处理 )t1 left join ( select * from dim_table where id in (1,2,3) -- 此时维表就很小了可以用mapjoin )t2 on t1.id = t2.id union all select t1.*,t2.* from ( select * from fact_table where id not in (1,2,3) )t1 left join ( select * from dim_table where id not in (1,2,3) )t2 on t1.id = t2.id; 情况3: 数据量相当大且不止是头部头身都很大只有少数数据比较少想象的场景是物联网中某个机具当天的心跳信息关联机具的基础信息几乎每个机具的心跳信息都有上千万条 1.维表能不能先过滤可能维表1kw条但关联用到的只有100w 转为大小表join select * from dim_table where id in (select id from fact_table group by id) 2.如果两个表都很大那不是数据倾斜而是数据堆积每个任务处理时间都很长这种的不要以天级别做join 而是小时级别每一个小时做一次到时候如果再数据倾斜再考虑上面的方法 #数仓开发#