腾讯微保实习二面(数据开发工程师)

动动小手,点个赞呗
腾讯微保二面(35分钟+5分钟提问)压力面
1 自我介绍
2 项目介绍

3 大数据相关(很多我忘记了)
spark sql读取文件,内存不够使用,如何处理
spark sql与DataFrame的使用
数据倾斜问题,Flink问了一点点
sql如何实现数据倾斜中加盐操作

示例:给 表中的某个字段插入随机数数据,取值500~2000

update 表名 set 字段名 = floor(500+rand()*1500);
UPDATE `表名` SET `字段名`=ceiling(rand()*500000+500000) WHERE (条件);

floor:函数只返回整数部分,小数部分舍弃,即向上取整

rand:函数用于产生0(包含)到1(不包含)的随机数



Spark做实时流处理如何防止乱序现象,Structured Streaming
全都是生产上常见的问题。。。


4 机器学习,数据挖掘相关(太多问题)
问了比赛相关的,主要机器学习的问题使用的什么方法,XGBoost与LightGBM的应用场景
逻辑回归原理,如何防止过拟合,如何评价模型,如何进行特征工程
如何选择最优的特征,数据预处理,spark的机器学习库,底层源码问题
CNN常见模型,一些原理,适用场景。

5 写了一个sql,不能额外使用其他表
姓名,课程,课目成绩这三个字段转换成 姓名 课程1,课程2,课程3(对应成绩)
方法一
select 姓名,
max(case 课程 when '语文' then 分数 else 0 end)语文,
max(case 课程 when '数学'then 分数 else 0 end)数学,
max(case 课程 when '物理'then 分数 else 0 end)物理
from tb
group by 姓名

方法二PIVOT用于将列值旋转为列名(即行转列)PIVOT的一般语法是:PIVOT(聚合函数(列) FOR 列 in (…) )AS P
select * from tb pivot(max(分数) for 课程 in (语文,数学,物理))


面试感受,自己太菜了,还是需要加油。等HR面咯


4.27下午电话面试(应该是HR)

#微保WeSure##实习##数据开发工程师##面经#
全部评论
这就是offer之神吧
1 回复
分享
发布于 2020-04-21 17:44
有反问环节吗?我感觉我手撕代码没做好,反问环节都不给我了
点赞 回复
分享
发布于 2020-04-21 18:09
联易融
校招火热招聘中
官网直投
有说多久给回复吗?
点赞 回复
分享
发布于 2020-04-21 19:49
技术岗我看官网不是写的还有二轮复试嘛 楼主直接就等hr面了嘛
点赞 回复
分享
发布于 2020-04-21 21:55
只问了简历是不是凉了
点赞 回复
分享
发布于 2020-04-22 10:32

相关推荐

头像
04-16 11:12
Python
昨天面了腾讯软件工程-数开实习的三面,下面记录一下问题:1.自我介绍,有无实习经历(无),做的两个项目是自己练手的?(是)2.描述了一个场景,有一张员工表,有姓名、年龄、性别,求出所有姓张、年龄小于20的所有女性。口头作答3.刚才你说的这个sql怎么优化?(添加索引、联合索引)4.添加索引有什么副作用?(会占用空间)5.假设表的内容越来越多,比如上千万行,怎么优化表?(分区、缓存)6.怎么缓存到内存?(用redis这种内存数据库)7.内存数据库和非内存数据库的读写差异?(内存数据库读写可以在微妙完成,非内存数据库的读取速度取决于磁盘I/O性能和数据量大小)8.为什么非内存数据库就比较慢(因为存储介质比较慢)9.什么硬盘比较快?(固态硬盘)10.固态硬盘和机械硬盘读写差异有多大(由于固态硬盘使用闪存存储数据,它们具有非常快的读取速度,机械硬盘使用旋转的磁盘和读写头来存储和访问数据,比较慢)11.毫秒级别是什么场景?(操作系统的数据加载、固态硬盘的读写)12.SSD的缺点是什么?(价格贵,容易老化,数据丢失)13.为什么SSD会随着使用时间的增加而性能下降?(写入操作会导致存储单元的磨损,温度也会使性能下降)14.假设表很大,行怎么拆分?(可以考虑用时间分区)15.除了日期,还有什么可以水平拆?(地理位置、实体属性、业务流程)16.年龄性别怎么分?(年龄按年龄段分,性别按男女分)17.怎么评价划分好坏?(属性的区分度要好,分区后的数据尽量要均衡)18.有什么好的分法?19.如果从中国所有人里面搜索,怎么样可以快一点?(按省市区县分区)20.按地域划分的缺点?(分区后数据可能不均衡,比如深圳是千万级城市)21.python跟c++和java的区别是什么?22.linux查看系统资源,cpu怎么看?23.top看到的ioswap是什么原因?24.怎么解决io等待?25.磁盘上部署大量的 I/O 密集型任务,怎么均衡?26.公平调度是什么?27.有什么不公平的方法?28.爬泰山有10000级台阶,每一次只能走1,2,3步,怎么做?(用动态规划)29.这个动态规划的优点和缺点?30.这个动态规划代码的缺点怎么优化?31.自顶向下的记忆化搜索,怎么避免重复计算?32.最擅长的技术今天看到3面过啦!希望hr面顺利
点赞 评论 收藏
转发
13 23 评论
分享
牛客网
牛客企业服务