时间:9.28投递的迅雷数据分析岗,10.15收到笔试通知于10.19号19:00-20:35参加迅雷2021校招数据分析笔试题 B卷。
试卷回忆版:共有三种题型:单选题(20个,每个3.5分)、多选题(2个,每个3分)、问答题3个(一个8分)
单选题20个:
1.RFM模型指的是:最近一次消费、消费频率 、消费金额
答案分析:根据美国数据库营销研究所Arthur Hughes的研究,客户数据库中有3个神奇的要素,这3个要素构成了数据分析最好的指标:
最近一次消费 (Recency)
消费频率 (Frequency)
消费金额 (Monetary)
2.和P值是分别是越大越好,还是越小越好
答案分析:拟合优度越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高,观察点在回归直线附近越密集,模型效果越好;P值在检验线性关系时,原假设为因变量y和k个自变量之间的关系不显著,即总体显著性检验。当P<a时拒绝原假设,即因变量y和k个自变量之间的关系显著。
越大,P值越小模型效果越好。
3.python中 math.floor(5.5)的返回值是6
答案分析:
Math类中提供了三个与取整有关的方法:ceil、floor、round,这些方法的作用与它们的英文名称的含义相对应。
(1)ceil的英文意义是天花板,该方法就表示向上取整,Math.ceil(11.3)的结果为12,Math.ceil(-11.3)的结果是-11;
返回大于等于( >= )给定参数的的最小整数,类型为双精度浮点型()
(2)floor的英文意义是地板,该方法就表示向下取整,Math.floor(11.6)的结果为11,Math.floor(-11.6)的结果是-12;
floor() “地板”,向下取最接近的整数。
返回小于等于(<=)给定参数的最大整数 (即直接舍去小数点)
(3)最难掌握的是round方法,它表示“四舍五入”,算法为Math.floor(x+0.5),即将原来的数字加上0.5后再向下取整,所以,Math.round(11.5)的结果为12,Math.round(-11.5)的结果为-11。
round() 它表示四舍五入,算法为 Math.floor(x+0.5),即将原来的数字加上 0.5 后再向下取整,所以,Math.round(11.5) 的结果为12,Math.round(-11.5) 的结果为-11
4-5. 考察SQL的查询语句
6.考察了最小-最大规范法,一个数的计算
答案分析:
7.考察了一个APRU值的计算(不懂)8.计算2日留存率的一个题 9.数据挖掘的知识点:交互化、可视化(不记得了)
10.漏斗分析法、Abtest、内外因分析法、用户分群知识点
11.设X={1,2,3}是频繁项集,则可由X产生(6)个关联规则
这里频繁项集的意思应该是关联时每个元素都必须参与
{1} -> {2, 3}
{2} -> {1, 3}
{3} -> {1, 2}
{1, 2} -> {3}
{1, 3} -> {2}
{2, 3} -> {1}
12-29 一些计算概率和行测的题目
20.以下哪个模型能解决样本不平衡问题:KNN
KNN、SVM、Bayes、神经网络
KNN只是取了最近的几个样本点做平均而已,离预测数据较远的训练数据对预测结果不会造成影响,但是svm、Bayes和神经网络中每一个训练样本都会对预测结果产生影响,于是如果样本不平衡的话KNN的效果最好,举个极端一点例子:答案只有A与B,但是训练样本中A的个数占99%,而B只有1%,svm、Bayes和NN训练出来的结果,恐怕预测任何数据给出的答案都是A,但是KNN不会。
多选题2个:较简单,忘记了
已经日活数=登录用户数/登录率,判断影响日活数升高的一些因素
问答题3个:
1.请说出一些与下载功能相关的关键性指标
这个问题与迅雷软件的特点相关把,答案我也不知道
2.用户流失分析:新用户流失和老用户流失有什么区别
多了解用户运营相关知识,如用户留存、用户活跃和用户流失的影响因素及影响程度等
3.你理解的分析师工作是怎样的
考察你对所投递岗位的定位与理解