快手 数据开发 一面 55min

1、自我介绍
2、spark宽窄依赖,stage划分
3、rdd的弹性体现在什么方面
4、group by 和reduce by的区别
5、spark内存划分,内存调优参数
6、spark的join有哪些,sort merge(没答出来)
7、spark的shuffle过程,和mr的区别
8、数仓总线业务矩阵是什么
9、数仓分层,dws层存在的必要性是什么
10、spark以及sql的优化经验(数据倾斜除了加前缀还有什么方法,大表join大表怎么办)
11、小文件问题怎么处理
12、用户id两张表设计时一个是bigint一个是string后面join有什么后果(没答上来,面试官说底层先会转成double)
13、round和roundseed的区别(面试官说假如maptask失败后round会分配到不同的reduce中,roundseed每次随机的值是一样的,网上没有查到roundseed,有没有大佬教教是不是我听错了)
14、两道sql
①连续登录天数
②互相关注的用户(用case+concat)

一次体验不错的面试,面试官人真的好好,很耐心引导我不会的问题,许愿二面

更新 3.29二面
全部评论
他说的random seed应该是用在sample函数里面的参数。估计想问你用sample函数处理数据倾斜问题这个点
1 回复
分享
发布于 03-26 08:19 山西
roundseed到底是什么😭😭
点赞 回复
分享
发布于 03-22 22:05 湖北
联想
校招火热招聘中
官网直投
后续咋样了佬
点赞 回复
分享
发布于 03-24 20:55 北京
佬,二面约了吗
点赞 回复
分享
发布于 03-31 10:14 重庆
佬是因为你的项目用spark嘛,怎么全是spark
点赞 回复
分享
发布于 04-11 05:07 新加坡
佬,有后续吗
点赞 回复
分享
发布于 04-21 00:26 湖北

相关推荐

11 30 评论
分享
牛客网
牛客企业服务