迅雷2021校招数据分析笔试题 B卷

时间：9.28投递的迅雷数据分析岗，10.15收到笔试通知于10.19号19:00-20:35参加迅雷2021校招数据分析笔试题 B卷。

试卷回忆版：共有三种题型：单选题（20个，每个3.5分）、多选题（2个，每个3分）、问答题3个（一个8分）

单选题20个：

1.RFM模型指的是：最近一次消费、消费频率、消费金额

答案分析：根据美国数据库营销研究所Arthur Hughes的研究，客户数据库中有3个神奇的要素，这3个要素构成了数据分析最好的指标：

最近一次消费 (Recency)

消费频率 (Frequency)

消费金额 (Monetary)

2. 迅雷2021校招数据分析笔试题 B卷和P值是分别是越大越好，还是越小越好

答案分析：迅雷2021校招数据分析笔试题 B卷拟合优度越大，自变量对因变量的解释程度越高，自变量引起的变动占总变动的百分比高，观察点在回归直线附近越密集，模型效果越好；P值在检验线性关系时，原假设为因变量y和k个自变量之间的关系不显著，即总体显著性检验。当P<a时拒绝原假设，即因变量y和k个自变量之间的关系显著。迅雷2021校招数据分析笔试题 B卷越大，P值越小模型效果越好。

3.python中 math.floor(5.5)的返回值是6

答案分析：

Math类中提供了三个与取整有关的方法：ceil、floor、round，这些方法的作用与它们的英文名称的含义相对应。

（1）ceil的英文意义是天花板，该方法就表示向上取整，Math.ceil(11.3)的结果为12,Math.ceil(-11.3)的结果是-11；

返回大于等于( >= )给定参数的的最小整数，类型为双精度浮点型（）

（2）floor的英文意义是地板，该方法就表示向下取整，Math.floor(11.6)的结果为11,Math.floor(-11.6)的结果是-12；

floor() “地板”，向下取最接近的整数。
返回小于等于（<=）给定参数的最大整数（即直接舍去小数点）

（3）最难掌握的是round方法，它表示“四舍五入”，算法为Math.floor(x+0.5)，即将原来的数字加上0.5后再向下取整，所以，Math.round(11.5)的结果为12，Math.round(-11.5)的结果为-11。
round（) 它表示四舍五入，算法为 Math.floor(x+0.5)，即将原来的数字加上 0.5 后再向下取整，所以，Math.round(11.5) 的结果为12，Math.round(-11.5) 的结果为-11

4-5. 考察SQL的查询语句

6.考察了最小-最大规范法，一个数的计算

答案分析：

迅雷2021校招数据分析笔试题 B卷

7.考察了一个APRU值的计算（不懂）8.计算2日留存率的一个题 9.数据挖掘的知识点：交互化、可视化（不记得了）

10.漏斗分析法、Abtest、内外因分析法、用户分群知识点

11.设X={1，2，3}是频繁项集，则可由X产生(6)个关联规则

这里频繁项集的意思应该是关联时每个元素都必须参与

{1} -> {2, 3}

{2} -> {1, 3}

{3} -> {1, 2}

{1, 2} -> {3}

{1, 3} -> {2}

{2, 3} -> {1}

12-29 一些计算概率和行测的题目

20.以下哪个模型能解决样本不平衡问题：KNN

KNN、SVM、Bayes、神经网络

KNN只是取了最近的几个样本点做平均而已，离预测数据较远的训练数据对预测结果不会造成影响，但是svm、Bayes和神经网络中每一个训练样本都会对预测结果产生影响，于是如果样本不平衡的话KNN的效果最好，举个极端一点例子：答案只有A与B，但是训练样本中A的个数占99%，而B只有1%，svm、Bayes和NN训练出来的结果，恐怕预测任何数据给出的答案都是A，但是KNN不会。

多选题2个：较简单，忘记了

已经日活数=登录用户数/登录率，判断影响日活数升高的一些因素

问答题3个：

1.请说出一些与下载功能相关的关键性指标

这个问题与迅雷软件的特点相关把，答案我也不知道

2.用户流失分析：新用户流失和老用户流失有什么区别

多了解用户运营相关知识，如用户留存、用户活跃和用户流失的影响因素及影响程度等

3.你理解的分析师工作是怎样的

考察你对所投递岗位的定位与理解