首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
课程
专栏·文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
在线笔面试、雇主品牌宣传
登录
/
注册
牛客248146632号
电子科技大学 计算机类
发布于北京
关注
已关注
取消关注
@三石大数据:
图解Spark第一季【全是大厂面试题!】
Spark作为大数据计算平台后起之秀,在2014年打破了Hadoop保持的基准排序记录,使用206个节点在23分钟里完成了100TB数据的排序,而Hadoop则是使用2000个节点在72分钟的时间里完成同样数据的排序。也就是说,Spark仅用了十分之一的计算资源,获得了比Hadoop快3倍的速度。为什么速度如此之快?让我们首先探讨一下Spark的底层架构设计,揭示其中的精妙之处。一、Spark架构设计面试官:你知道Spark架构吗?标准答案:我知道的,Spark架构包括控制节点Driver,以及工作节点Executor和集群资源管理器。其中,Diver是整个架构的老大,主要负责资源申请以及任务分配等工作;Executor是一个JVM进程,专门用于计算;集群资源管理器可以是 Spark 自带的资源管理器, 也可以是 YARN 或 Mesos 等资源管理框架。总结一下,Spark 采用主从架构, 包含一个 Master(即Driver)和若干个 Worker。如果面试官继续追问:这种架构相比Hadoop有什么优势?标准答案:与Hadoop MapReduce 计算框架相比,Spark 所采用的 Executor 有两个优点:一是利用多线程来执行具体的任务,减少任务的启动开销,而MapReduce采用的是多进程模型;二是 Executor 中有一个BlockManager存储模块,会将内存和磁盘共同作为存储设备(默认使用内存,当内存不够时,会写到磁盘),当需要多轮迭代计算时,可以将中间结果存储到这个存储模块里,下次需要时,就可以直接读该存储模块里的数据,而不需要读写到 HDFS 等文件系统里,因而有效地减少了 I/O 开销, 如果面试官继续追问:Application、Job、Stage、Task之间的联系是什么?标准答案:总体而言,在 Spark 中,一个应用(Application)包含若干个作业(Job),一个作业由多个阶段(Stage)构成,一个阶段由多个任务(Task)组成。如果面试官继续追问:Spark如何运行这些作业?二、Spark运行基本流程标准答案:当一个 Spark 应用被提交时,首先需要为这个应用构建基本的运行环境,即由任务控制节点 (Driver)创建一个 SparkContext 对象,由 SparkContext 负责与资源管理器(Cluster Manager)的通信以及进行资源的申请、任务的分配和监控等,SparkContext 会向资源管理器注册并申请运行 Executor的资源,SparkContext 可以看成是应用程序连接集群的通道。 资源管理器为Executor分配资源,并启动Executor进程,Executor运行情况将随着心跳发送到资源管理器上。 SparkContext根据RDD的依赖关系构建DAG图,并将DAG图提交给 DAG 调度器(DAGScheduler)进行解析,将 DAG 图分解成多个阶段(每个阶段都是一个任务集),并且计算出各个阶段之间的依赖关系,然后把一个个“任务集”提交到底层的任务调度器(TaskScheduler)进行处理;Executor 向 SparkContext 申请任务,任务调度器将任务分发给 Executor 运行,同时,SparkContext 将应用程序代码发放给 Executor。 任务在 Executor 上运行,把执行结果反馈给任务调度器,然后反馈给 DAG 调度器,运行完毕后写入数据并释放所有资源。
点赞 4
评论 0
全部评论
推荐
最新
楼层
滴滴
校招火热招聘中
官网直投
相关推荐
前途在哪里
04-30 11:33
已编辑
门头沟学院 计算机类
暑期实习推荐
面试两个月,鼠鼠挂了一堆,只收到武汉小米和美团优选的offer(都是后端java)网上看风评都不太好,可是没有别的选了,想问问大伙选哪个
投递小米集团等公司10个岗位 >
晒一晒我的offer
我的实习求职记录
点赞
评论
收藏
转发
程序员小白条
04-29 10:49
门头沟学院 计算机类
腾讯测试开发一面
腾讯测试开发一面 总共时间 15 分钟,别问为什么这么短,天美的子公司云梦工作室...搜不到,很好,第一次遇到女面试官~ 1)介绍下项目和实习经历 2)项目的压力测试方面 3)项目的难点和亮点 4)API 项目的签名加密 5)缓存预热+定时任务 6)为什么要流量染色? 7)开源项目的需求场景 8)AI 模型使用,怎么调用的? 9)base 地点,技术栈和业务的反问 10)技术栈 Vue3+Python,涉及 Unity(C#) UE(C++)。 面试轮次至少两轮,还有一轮HR面~ AI 智能图书馆开源项目地址:https://gitee.com/falle22222n-leaves/vue_-...
面经(打怪升级系列)
软件开发2024笔面经
点赞
评论
收藏
转发
牛客893799462号
03-08 16:03
玉溪师范学院 计算机类
投了几百份基本没人理,感觉简历有问题😭
点赞
评论
收藏
转发
yu77
03-20 10:53
广州理工学院
回答了 95%的问题,3 天没信息 g
点赞
评论
收藏
转发
讲道理的熊熊在游泳
04-29 09:40
第四范式_语音算法工程师(准入职员工)
第四范式内推
✨ 第四范式2024届春招岗位上线!25届毕业的同学可以准备投递暑期实习了,赶紧完善好简历 ,mark本帖 ,招聘启动后第一时间评论区挨个踢大家 注意每个同学只有一次投递机会,且只能选择一个岗位投递 !Mark住,届时第一时间提醒。🌸 【公司介绍】企业级人工智能领域的行业先驱者与领导者。👉 【招聘岗位】机器学习算法、架构,语音算法,米哈游,计算机视觉,后端开发,大数据处理,产品经理,人力资源等!🔥 【岗位城市】北京、上海、无锡、武汉、深圳、新加坡。💞 【福利待遇】薪资待遇=基础薪资+绩效奖金+多种福利补贴,除此之外公司还有健身房、兴趣社团活动,电竞椅,升降办公桌等众多福利等你来解锁【内...
点赞
评论
收藏
转发
点赞
收藏
评论
分享
回复帖子
全站热榜
1
...
毕业
7572
2
...
【薪资计算】SS Is All You Need
5982
3
...
【奖💰】通信硬件薪资爆料②
5366
4
...
浅谈一下今年暑期实习形势
4750
5
...
学弟们听劝,不要学后端
4436
6
...
计算机就业,别卷绩点,这是最大的信息差
3988
7
...
双非大学四年Apache PPMC 拿过大厂offer考研.
3820
8
...
双非硕士的出路
3373
9
...
阿里饿了么意向
3355
10
...
22届211工科考浙大失败不知道咋找工作了,有没有佬给点建议
3197
正在热议
#
牛友的五一计划
#
33265次浏览
550人参与
#
2022届毕业生现状
#
291763次浏览
4153人参与
#
牛客帮帮团来啦!有问必答
#
454765次浏览
8349人参与
#
你想对下半年说点什么
#
5048次浏览
127人参与
#
互联网公司评价
#
67502次浏览
944人参与
#
华为开奖那些事
#
651356次浏览
5703人参与
#
实习好累,可以辞职全力准备秋招吗
#
3726次浏览
72人参与
#
市场营销面经
#
2224次浏览
85人参与
#
许愿池
#
68455次浏览
1494人参与
#
参加过提前批的机械人,你们还参加秋招么
#
9471次浏览
303人参与
#
硬件人的春招flag
#
15183次浏览
208人参与
#
产品实习,你更倾向大公司or小公司
#
32374次浏览
505人参与
#
双非本科求职如何逆袭
#
180916次浏览
2685人参与
#
没有实习经历,还有机会进大厂吗
#
275630次浏览
5559人参与
#
我的成功项目解析
#
73739次浏览
2170人参与
#
产品薪资爆料
#
30216次浏览
523人参与
#
担心入职之后被发现很菜怎么办
#
27199次浏览
240人参与
#
校招入职后的感受
#
41225次浏览
697人参与
#
为什么那么多公司毁约
#
34905次浏览
288人参与
#
毕业后不工作的日子里我在做什么
#
43299次浏览
611人参与
牛客网
牛客企业服务