首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
课程
专栏·文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
在线笔面试、雇主品牌宣传
登录
/
注册
查理的巧克力
2019-04-16 16:46
已编辑
算法工程师
关注
已关注
取消关注
spark初学者想问一个关于数据混洗的问题
看网上说除了count之外的bykey操作能引发数据混洗,在combineByKey()方法中,说是每个分区单独操作所以要传一个mergeCombine操作,将不同分区中同一个键值合并。但是数据混洗的过程不就是将键值按照其哈希值进行分区,这样的话不就可以保证相同的键值在同一个分区了吗,为什么还要将不同分区的同一个键值进行合并呐~
不知道是不是我对数据混洗理解有误,跪求大神指教~
提示
全部评论
推荐
最新
楼层
NowaCoder
阿里巴巴_阿里云_研发工程师
初学者来回答一下,我觉得他说的分区是来自不同map端的分区意思,你的分区是不同reduce端分区的意思
点赞
送花
回复
分享
发布于 2019-04-16 17:11
turtlebin
大数据开发工程师
combineByKey方法实际上需要传递三个方法,createCombiner,mergeValue,mergeCombiner三个,其中createCombiner和mergeValue是在map端进行聚合的时候使用,Map端会在一个外部排序Map中对数据进行聚集,并对数据按照reduce端的分区进行排序。而你提到的mergeCombiner是在reduce端fetch到所有map端的block之后对各个map端中所有包含自身reduce分区的数据进行merge。个人见解,欢迎指正。
点赞
送花
回复
分享
发布于 2019-04-16 18:05
滴滴
校招火热招聘中
官网直投
turtlebin
大数据开发工程师
简单来说,在shuffle过程中分为map阶段和reduce阶段,实际上map阶段会调用createCombiner方法和mergeValue方法对数据依据分区排序,但是此时数据并不实际移动,也就是说,在map阶段,不同map端可能存在相同的key,而若需要把不同map端相同的key聚合起来,就需要在reduce端使用mergeCombiner方法,而真正的数据移动是发生在reduce端,他会根据MapOutputTracker跟踪到map端的数据存储信息,并通过网络传输fetch数据,这时才真正发生数据的移动,才是真正的shuffle发生的时间点。
点赞
送花
回复
分享
发布于 2019-04-16 18:09
滴滴
校招火热招聘中
官网直投
相关推荐
勇敢的95后面向对象
05-19 21:30
投资经理
毕业了去中国银行工作好还是去民生银行好?
我之前进过中行,现在已经离职了,简单分析一下:首先说收入,这两年的银行,收入和几年前风光的时候没有可比性,由于保密协议是终身制的,哪怕离职也不能公开,我不能说太详细,只能说除了营销岗位和领导之外,收入方面和普通白领没有任何优势,但是公积金很高。而领导和营销岗位的工资,多少就完全靠自己的能力和人脉了。其次说工作强度,可以说你无论进入任何大型金融机构,包括证券公司包括保险公司包括银行,都会有很大的加班量,银行尤其多,一开始做柜员,每天关门后要盘库,清点,一般下班要5点到7点了,遇到帐弄错了12点都有可能。然后回家还要练技能,点钞、打字、银行内部系统操作(中行叫IT蓝图)、计算机。反正如果是个上进的...
投递中国银行等公司6个岗位 >
点赞
评论
收藏
转发
牛客781415392号
05-16 17:13
华为_嵌入式开发工程师
2012实验室在线收留华为实习生软件机考挂了的伤心人er
有没有实习挂了的啊,我这边目前投递的学生都会等他们准备好了才发机考,所以秋招的话欢迎投递过来,会给充足的时间准备,也会给予一些指导,欢迎投递过来呀。当然没投递过的也欢迎~算法工程师1、面向云、大数据、科学计算等场景,负责高性能数值计算方法、混合精度科学计算算法、高性能计算+AI算法、基础数学算法研究、实现和优化,使能高性算法库在EDA/HPC/大数据/无线网络等关键场景获得极致性能;2、构建高性能数学求解器,解决EDA/电磁仿真/气象等关键场景瓶颈问题;3、负责HPC领域内前沿技术、求解器关键算法、下一代高性能计算关键技术的探索及技术验证,持续保持业界领先4、参与国内外TOP学术会议、国标论坛...
投递华为等公司10个岗位 >
点赞
评论
收藏
转发
乘凉一度时光
04-09 12:04
南京邮电大学 自动化类
上来就挂,什么原因啊,怎么说
请求指点一下
点赞
评论
收藏
转发
曹俊豪
04-13 18:48
三亚学院 计算机类
大二想找实习,不玻璃心,求拷打
点赞
评论
收藏
转发
202258
05-17 16:26
山东大学 计算机类
实习难求——做个总结
实习应该是难有了。到今日5.17为止,综合考虑过往经历和最近面试,不得不承认这一结论。现,总结下这段找实习的经历,以求后进:遥记得,三月份才起手准备,整一个月的多数时间在练力扣,刷hot100,实习投递方面仅投了一个华为。四月份,上半月为了准备17号的机考和临近的实验室讨论班,依然把时间重心放在了练代码上,把牛客的华为中等题刷了个遍,结果机考自己硬上拿了前两题,虽然通过,但仅仅330分还不算很有优势的分数。此处后悔没叫外援,没争取到足够优势。机考结束后,才开始着手多投递了四家大公司,后来也基本上没了动静,应当是投递有些晚了。接着华为的性格测试、技术面、主管面等陆续到来,最后挂了。此时已到了四月...
我的实习求职记录
点赞
评论
收藏
转发
点赞
收藏
评论
分享
回复帖子
全站热榜
1
...
开摆了,写小说去了
1.1W
2
...
【有奖活动】浅聊一下我的实习⭐
9315
3
...
没offer的我们也很优秀偶
8096
4
...
快手客户端开发工程师(1)
5749
5
...
双非本 腾讯WXG暑期已offer | 附面经
5588
6
...
5.20携程笔试
5371
7
...
真有必要读研吗
5184
8
...
滴滴秋储-服务端开发 OC
4635
9
...
pcg qq 一面
4394
10
...
深夜emo了,暑假实习还是0offer
3784
正在热议
#
牛客帮帮团来啦!有问必答
#
802376次浏览
12666人参与
#
机械制造薪资爆料
#
317905次浏览
3721人参与
#
晒一晒我的offer
#
3447854次浏览
55070人参与
#
0offer是寒冬太冷还是我太菜
#
424848次浏览
4902人参与
#
海康威视求职进展汇总
#
100287次浏览
1205人参与
#
宁德时代求职进展汇总
#
36774次浏览
411人参与
#
实习生应该准时下班吗
#
79974次浏览
588人参与
#
你的秋招进行到哪一步了
#
366678次浏览
6386人参与
#
国企vs私企,你更想去?
#
20048次浏览
202人参与
#
非技术薪资爆料
#
73639次浏览
1000人参与
#
投了多少份简历才上岸
#
60037次浏览
969人参与
#
荣耀求职进展汇总
#
69058次浏览
689人参与
#
提前批的机械人,你们都有面试了吗
#
10186次浏览
148人参与
#
华为求职进展汇总
#
537165次浏览
5128人参与
#
想实习转正,又想准备秋招,我该怎么办
#
116183次浏览
1305人参与
#
简历无回复,你会继续海投还是优化再投?
#
22643次浏览
316人参与
#
一人推荐一个值得去的通信/硬件公司
#
62740次浏览
853人参与
#
毕业租房也有小确幸
#
27085次浏览
1488人参与
#
你的工作大概什么时候入职?
#
4847次浏览
58人参与
#
找工作中的意难平
#
196168次浏览
3461人参与
牛客网
牛客企业服务