百度 大数据研发实习

一面
实习深挖
对于高耗时任务的代码优化思路
如何发现不必要的扫表
sparksql和hivesql有什么区别
sparksql和hive on spark性能有差异吗,差异在哪
hdfs架构
datanode心跳机制
datanode挂了之后会怎么样,容错机制是怎么样
机架感知
有限内存下的一亿数据怎么排序
了解哪些shell命令
有a,b两个文件,存的都是id,写shell找出a中有但b中没有的id行
flink窗口计算相关
java反射是什么,作用场景,反射性能
数据质量是怎么保证的,完整性唯一性具体怎么实现的
反问 业务和工作内容 主要做离线还是实时
#面经##百度#
全部评论
你这啥时候投的?我看最近都没有大数据研发的岗位
1 回复
分享
发布于 03-13 16:24 河北
大佬,简历要写成啥样才能有机会面试啊
1 回复
分享
发布于 03-13 21:29 浙江
联想
校招火热招聘中
官网直投
我发了饿了么的25届实习内推码,同学有需要可以自取,这次转正率超高可以一试
点赞 回复
分享
发布于 03-13 15:54 江西
请问你是在哪投递的
点赞 回复
分享
发布于 03-14 10:31 安徽
佬,如何避免不必要的扫表,答案是啥
点赞 回复
分享
发布于 03-14 18:16 北京
跟我两年前面试差不多内容
点赞 回复
分享
发布于 03-24 13:57 浙江

相关推荐

美团数据开发转正实习面经总结:美团效率,完全没准备好就面试了。问了很多八股,兼具深度广度,知道的不知道全问了。学习之路道阻且长啊。数仓分层:为什么不能直接建DWD,DIM层,ODS层的必要性是什么?DWS层的作用是什么,为什么不能直接建ADS层?完全同上乱答SQL考查:统计每个科目各等级的人数,写的很艰辛,面试的时候脑子经常短路,干着急。菜就多练分组topN,窗口函数。left join where中的条件写在where里和写在on里面有什么区别,查询结果一样吗?Java考查:HashMap底层组成,怎么减少扩容次数,答扩大初始容量,增加扩容因子。说说面向对象。了解的数据类型。Hive:什么情况会导致倾斜,怎么解决。写了一个HQL语句,问从提交到MR的整个详细执行过程,答的很粗略。hive 怎么根据表名去找表数据,metastore。MySQL 常见内存引擎,什么时候适合用哪种引擎。事务隔离级别。银行应该用哪种隔离级别。为什么用B+树,而不是B树或者其他。行列存储优缺点。常见的压缩格式。MR:切片规则,100个文件前面99个小文件,最后一个文件150M,默认切几片。顺势问到小文件的危害,怎么解决。分区器问题,疯狂拷打,但没什么印象了环形缓冲区调大调小有什么问题,纯乱答。写个快排,没注意有重复元素,好像陷入死循环了。问了为什么选择走数据开发这条路,有看过什么大数据类型的书吗。最后问你的亮点是什么,一直都不知道这些问题怎么答然后详细描述。其他的想不起来了。
点赞 评论 收藏
转发
10 36 评论
分享
牛客网
牛客企业服务