首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
课程
专栏·文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
在线笔面试、雇主品牌宣传
登录
/
注册
牛客696006441号
算法工程师
发布于香港
关注
已关注
取消关注
@来杯冰可乐叭:
数据开发全流程介绍
上次写了一下大数据开发的日常工作以及实习的一些工作流程总结,这次就具体的写一下数据开发过程中,完成一个模型的产生或者说一个需求方案的产出是怎么完成的。本文的内容对于大家在面试中的意义是在于结合到自己已有的项目以及数据开发的流程,去完善自己项目的细节,比如说很多同学学习了尚硅谷的数仓项目,但是不知道怎么去描述,或者在面试杯问到容易出现疏漏,那么就可以按照本文去梳理整个项目的流程。岗位选择:https://www.nowcoder.com/discuss/462382334675779584?sourceSSR=users学习路径:https://www.nowcoder.com/discuss/463804300381245440?sourceSSR=users日常工作:https://www.nowcoder.com/discuss/466545985922035712?sourceSSR=users1 OneData数据实施体系(数仓建设)如果学大数据,大家应该都听过阿里巴巴的OneData大数据体系。其实在整个OneData体系中,对于数据实施的流程也有一些描述,那么什么是OneData,官方定义如下:阿里云 OneData 数据中台解决方案基于大数据存储和计算平台为载体,以 OneModel 统一数据构建及管理方法论为主干,OneID 核心商业要素资产化为核心,实现全域链接、标签萃取、立体画像,以数据资产管理为皮,数据应用服务为枝叶的松耦性整体解决方案。其数据服务理念根植于心,强调业务模式,在推进数字化转型中实现价值。数据中台到如今的建设成果主要体现在两方面:一个是数据的技术能力,另一个是数据的资产。今天阿里的各个业务都在共享同一套数据技术和资产。阿里内部为这个统一化的数据体系命名为 “OneData”。OneData 又主要抽象成三个部分,分别是:OneID、OneModel、OneService。第一部分:OneModel 致力于实现数据的标准与统一;第二部分:OneID 致力于实现实体的统一,让数据融通而非以孤岛存在,为精准的用户画像提供基础;第三部分:OneService 致力于实现数据服务统一,让数据复用而非复制。1-数据调研数据调研分为业务调研、需求分析两部分,主要是对整个数据需求的背景用途进行调研业务调研:对业务系统的业务进行了解。在实际开发中,除了有扎实的数仓理论技术支撑,业务的理解甚至重要性更高,业务背景的细微差异都会导致数据的大不同。所以在实际工作中,数据实施的首要前提是开发人员对业务的了解。所以要构建大数据仓库,就需要了解各个业务领域、业务线的业务有什么共同点和不同点,以及各个业务线可以细分为那几个业务模块,每个业务模块具体的业务流程又是怎样的。需求分析:在明确了需求的业务背景后,那么下沉到具体的需求,每一个数据模型我们最后是要落实到运营、分析人员的使用上。所以需要根据具体的需求,了解数据的用途或报表的需求,这样我们才能设计出更灵活的模型。2-架构设计数据域划分:数据域是指面向业务分析,将业务过程或者维度进行抽象的集合业务过程可以概括为一个个不可拆分的行为事件,如下单、支付、退款为保障整个体系的生命力,数据域需要抽象提炼,并且长期维护和更新但不轻易变动。在划分数据域时,既能涵盖当前所有的业务需求,又能在新业务进入时无影响地被包含进已有的数据域中或者扩展新的数据域。构建总线矩阵:在进行充分的业务调研和需求调研后,就要构建总线矩阵了。需要做两件事情:明确每个数据域下有哪些业务过程;业务过程与哪些维度相关,并定义每个数据域下的业务过程和维度。3-规范定义定规范将是数仓建设的核心步骤,因为前期规范如果没定义好,后面所有的开发、迭代都会稀里糊涂,最直接的影响就是数据的使用效率低下,更长远的将会极大提高数据治理的成本。规范定义主要定义指标体系,包括原子指标、修饰词、时间周期和派生指标。时间周期用来明确数据统计的时间范围或者时间点,如最近 30 天、自然周、截至当日等。业务限定是对业务的一种抽象划分。业务限定从属于某个业务域,如日志域的访问终端类型涵盖无线端、 PC 端等修饰词。度量 / 原子指标原子指标和度量含义相同,基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,具有明确业务的名词,如支付金额。维度维度是度量的环境,用来反映业务的一类属性,这类属性的集合构成一个维度,也可以称为实体对象。维度属于一个数据域,如地理维度(包括国家、地区、省以及城市等级的内容)、时间维度(其中包括年、季、月、周、日等级别的内容)派生指标派生指标 = 一个原子指标+多个业务限定(可选)+时间周期。 可以理解为对原子指标业务统计范围的圈定。如原子指标:支付金额,最近一天海外买家支付金额则为派生指标原子指标、业务限定及修饰词都是直接归属于业务过程下,其中修饰词继承修饰类型的数据域。派生指标的种类派生指标可以分为三类:事务型指标、存量型指标和复合型指标。按照其特性不同,有些必须新建原子指标,有些可以在其他类型原子指标的基础上增加修饰词形成派生指标。4-模型设计模型设计主要包括维度及属性的规范定义,维表、明细事实表和汇总事实表的模型设计。操作数据层(ODS)把业务系统数据几乎无处理地存放在数据仓库中。同步:结构化数据增量或者全量同步到 MaxCompute结构化:非结构化(日志)结构化处理并存储到 MaxCompute累积历史、清洗:根据数据业务需求及稽核和审计要求保存历史数据、清洗数据。公共维度模型层(CDM)存放明细事实数据、维表数据及公共指标汇总数据,其中明细事实数据、维表数据一般根据 ODS 层数据加工生成;公共指标汇总数据一般根据维表数据和明细事实数据加工生成。CDM 层又细分为 DWD 层和 DWS 层,分别是明细数据层和汇总数据层,采用维度模型方法作为理论基础,更多地采用一些维度退化手法,将维度退化至事实表中,减少事实表和维表的关联,提高明细数据表的易用性。同时在汇总数据层,加强指标的维度退化,采取更多的宽表化手段构建公共指标数据层,提升公共指标的复用性,减少重复加工。其主要功能如下:组合相关和相似数据:采用明细宽表,复用关联计算,减少数据扫描。公共指标统一加工:基于 OneData 体系构建命名规范、口径一致和算法统一的统计指标,为上层数据产品、应用和服务提供给公共指标;建立逻辑汇总宽表。建立一致性维度:建立一致的数据分析维表,降低数据计算口径、算法不统一的风险。应用数据层(ADS)存放数据产品个性化的统计指标数据,根据 CDM 层与 ODS 层加工生成。个性化指标加工:不公用性、复杂性(指数型、比值型、排名型指标)基于应用的数据组装:大宽表集市、横表转纵表、趋势指标串5-总结OneData 的实施过程是一个高度迭代和动态的过程,一般采用螺旋式实施方法。在总体架构设计完成后,开始根据数据域进行迭代示模型设计和评审。2 数据模型实施(模型设计开发)那么我们在实际做一个模型的设计开发的流程较OneData体系更为简洁,但是也更注重细节。1-方案设计方案设计要考虑的问题包括:数据产出、链路设计、源表说明、口径说明、表结构设计。数据产出:首先设计出整个数据链路的拓扑图,举个例子:这里需要注意用到的每个表的最晚产出时间,这决定了你的ads最表最终产出的时间是几点。所以在选择上游依赖表的时候需要考虑到上游表的产出时间,避免影响新模型的产出,或者新模型等待时间过长链路设计:这里就是对上面拓扑图的解释,每一次聚合或者 join 得到什么结果。一般而言,具体的代码开发,也是按照这个链路来完成的,详细的计算逻辑落实下去即可。源表说明:介绍上面拓扑图中用到的表,从中获得什么数据。最好列举一个表格说明。口径说明:阐述一些计算的逻辑,比如:where 的条件:看过视频就算还是看过 3s 以上才算?视频还是直播?group by 的字段:用什么聚合?时间:聚合 7 天还是 30 天?表结构设计:产出的表有哪些字段、数据类型(比如百分数,存 0.35 还是 35?)、增量还是全量等。2-链路性能与耗时计算上面拓扑图中各个节点产出的资源消耗(CPU 核数、内存大小)和用时,比如:CPU[300, 110]:表示 CPU 最大消耗 300 核,平均消耗 110 核;Mem[2]:表示运行时存储最大消耗 2T;Time[16, 3:00]:表示任务产出耗时 16min,3:00 左右产出;Store[35, 30]:表示表单日分区存储 35G,数据量 30E。3-数据查询因为 Hive 表最终要推到 ES 或者 CH 才能供后端调用,所以这里需要记录 ES 的数据源是哪个 Hive 表,用在前端页面上的哪个模块。即 ES - Hive - UI 界面 的对应关系。并给出 SQL 查询的示例,让后端开发人员知道如何用怎样的 SQL 语句去查询。4-数据回溯开发完后回溯历史数据。具体考虑的问题还是很多的,并不是直接的运行代码跑历史分区那么简单。5-值域说明这一部分也很重要,比如:算比例,分母为 0 怎么办?空值用 NULL 还是 0 还是其他?6-数据完整性例行任务也在写,自动回溯也在写,手动回溯也在写,怎么保证 Hive 表里面的数据是完整的?一般而言,通常需要提前考虑风险,如果可以解决,直接在数仓内部完成解决方案落实。如果容易产生资损,那么可以考虑牺牲部分数据,但需要提前与业务方沟通以上就是整个的数据开发流程啦,希望对大家在编写简历的项目经验或者总结实习经历有帮助。接下来我会总结一下之前我自己整理的大数据面试八股文,大家有兴趣可以持续关注。
点赞 13
评论 4
全部评论
推荐
最新
楼层
秋招专场
校招火热招聘中
官网直投
相关推荐
鱼大姐想要offer
05-27 14:29
蔚来_数据产品经理(准入职员工)
蔚来汽车25届提前批内推
【NIO新能源汽车明星品牌———蔚来2024届校园招聘内推!】【招聘岗位】:6大类IT技术类、产品类、运营类、米哈游、职能/行政/财会类、公关/市场/营销类、生产/制造/研发类【工作城市】:北京、上海、广州、深圳、成都、武汉等新一线城市皆有岗位在招。【内推链接】https://nio.jobs.feishu.cn/s/i2K7ebFF【内推码】R6D4SHC(内推简历优先筛选~)还有HC,不限学校,不限学历,抓紧投递!评论回复【姓名缩写 岗位】 能捞就捞,尽量保证不石沉大海。
投递蔚来等公司10个岗位 >
点赞
评论
收藏
转发
一念诤心
05-29 14:33
青岛理工大学 计算机类
想知道双非的学长学姐都在简历上写什么进大厂了
因为我才大一,可能也是有点不自量力吧,心里一直有一个大厂梦,虽然可能在大厂里也是卑微的打工人,但是总会能体验一点不一样的人生。 所以现在想提前准备一下,所以希望大家能给一点建议,之前只知道算法竞赛,但是感觉ACM没有好队友和天赋以及坚持还是比较难的,最近想参加开源社区,攒一段开源经历,想问一下大家还有什么可以提高简历含金量的东西,想针对性的去努力一下。
不畏艰辛的文:大一就有此觉悟,小伙子很有希望。 首先要过简历,国奖、匹配的实习经历、活跃在开源社区和技术论坛都可以帮助你通过简历筛选。面试能否通过就有很多客观因素了,可以准备多刷几段实习攒攒经验值
牛客帮帮团来啦!有问必答
点赞
评论
收藏
转发
神奇小赛尔
04-07 20:08
已编辑
美团_测试开发(准入职员工)
家没了,兄弟们
正写代码呢,发现家被拆了提前实习短租了个隔断,然后被举报了,叔叔们进来就拆,之前提醒了二房东,说没事放心住,然后今天就被拆了,中介不想负责,说只给按比例退房租,还有不到20天我就离职了不好找新的了,短租一个月的话中介加上房租费一个月基本白干了,兄弟们怎么看,势单力薄只能忍气吞声吗
点赞
评论
收藏
转发
只想有个offer
05-22 19:24
门头沟学院 计算机类
震惊!这种测试简历能拿30k的offer
offer来自我的大脑,求求好心人给我指点修改一下,我现在连3k的offer都没有
点赞
评论
收藏
转发
在看数据的考拉很勇敢
05-27 19:32
广东工业大学 电子商务类
大疆运营岗面经
面试岗位:大疆运营面试形式:视频会议面试流程:相互自我介绍面试时间:20分钟左右1、自我介绍2、你为什么选择大疆?3、你对大疆该岗位的理解,你的优势是?4、说说你所了解的平台的流量机制5、如何判断你的作品可以成为爆款?6、你觉得应该关注哪些数据?为什么?7、你的这个作品是否有几率成为爆款的数据分析的依据和来源分别是?8、反问
查看6道真题和解析
运营面经
点赞
评论
收藏
转发
点赞
收藏
评论
分享
回复帖子
提到的真题
返回内容
全站热榜
1
...
给你们预测一下今年的秋招!
3075
2
...
深圳蟑螂真的很可怕吗
2764
3
...
【🎁】25届硬件牛牛互助计划(1期)
2612
4
...
阿里体检完还没发正式offer
2461
5
...
海康暑期实习
2158
6
...
毕业了!
2067
7
...
5.31拼多多服务端开发实习生一面(75min)
2039
8
...
拿了蓝桥杯c++b组国二,水平怎么样,找后端开发工作有多大优势?
1932
9
...
二本开发转测试,面试成功
1781
10
...
985研0退学工作吗?
1676
正在热议
#
和牛牛一起刷题打卡
#
14171次浏览
1303人参与
#
通信硬件薪资爆料
#
256659次浏览
2413人参与
#
不去互联网可以去金融科技
#
4916次浏览
62人参与
#
牛客帮帮团来啦!有问必答
#
1095297次浏览
16339人参与
#
面试被问第一学历差时该怎么回答
#
18368次浏览
199人参与
#
简历中的项目经历要怎么写?
#
14391次浏览
193人参与
#
工作两年想退休了
#
19382次浏览
241人参与
#
简历中的项目经历要怎么写
#
482760次浏览
8792人参与
#
实习生应该准时下班吗
#
93503次浏览
706人参与
#
你收到了团子的OC了吗
#
531137次浏览
6301人参与
#
简历无回复,你会继续海投还是优化再投?
#
23535次浏览
329人参与
#
你已经投递多少份简历了
#
338899次浏览
4906人参与
#
晒一晒我的offer
#
3773966次浏览
58101人参与
#
你怎么评价今年的春招?
#
12542次浏览
194人参与
#
我的上岸简历长这样
#
203072次浏览
4126人参与
#
本周投递记录
#
221234次浏览
5386人参与
#
担心入职之后被发现很菜怎么办
#
39717次浏览
329人参与
#
我想象的工作vs实际工作
#
105846次浏览
1700人参与
#
工作压力大怎么缓解
#
12654次浏览
176人参与
#
硬件人的简历怎么写
#
81864次浏览
849人参与
#
产品人求职现状
#
56900次浏览
824人参与
牛客网
牛客企业服务