== 第四范式 k-means

1.关于k-means算法，正确的描述是(初始值不同，最终结果可能不同)

A能找到任意形状的聚类

B初始值不同，最终结果可能不同

C每次迭代的时间复杂度是0(n2)，其中n是样本数量

D不能使用核函数(kernel function)

解析：参数k的选择不同，结果不同，K-means 算法的初始“簇中心”点是随机选取的，所以最终求的得簇中心的划分与随机选取的“簇中心”有关，因此会造成的；多种簇的划分情况形成。

2.通常来说，哪个模型被认为易于解释？ (决策树)

SVM

线性回归（Linear Regression）

决策树(Decision Tree)

K-近邻（K-Nearest Neighbor）

解析：决策树模型每作出一个决策都会通过一个决策序列来向我们展示模型的决策依据：比如男性&未婚&博士&秃头的条件对应「不感兴趣」这个决策，而且决策树模型自带的基于信息理论的筛选变量标准也有助于帮助我们理解在模型决策产生的过程中哪些变量起到了显著的作用。

3.下列关于神经网络的叙述中，正确的是（B）

A损失函数关于输入一定是非凸或非凹的

B存在某种深度神经网络（至少一个隐藏层），使其每个局部最优解都是全局最优解

C深度神经网络容易陷入局部最优解

解析：

神经网络的损失函数是非凸的，有多个局部最低点，目标是找到一个可用的最低点。非凸函数是凹凸不平的，但是不同的损失函数凹凸起伏的程度不同，例如下述的平方损失和交叉熵损失，后者起伏更大，且后者更容易找到一个可用的最低点，从而达到优化的目的。

损失函数关于输入是非凸的。

当梯度在任意维度都无法继续下降时神经网络会陷入局部最优解。然而随着网络深度增加，维度也在增加。当维度非常高时，如5000维，很难让梯度在这5000维中都无法下降。

4.对于随机森林（Random Forest）和Gradient Boosting Trees, 下面说法正确的是（2,3）

1）随机森林的树和树之间是有依赖的

2） Gradient Boosting Trees中的树和树之间是有依赖的

3）这两个模型都可以使用随机特征子集, 来生成许多单个的树

解析：随机森林的数与数之间是没有依赖的

5.设随机变量X ~ N(0,1), X的分布函数为Φ(x)，则 P(|X|>2)的值为()

2[1-Φ(2)]

解析：分布函数=密度函数的积分。 Φ(x)是分布函数，表示从负无穷至X的概率之和。

==>第四范式 k-means

6.A，B为n阶方阵，且(A + B)2= A2 + B2, 则下列叙述正确的是（）

AB + BA = 0

解析：（A+B)(A+B)=A^2+AB+BA+B^2 所以AB+BA=0 考矩阵乘法

7.随机变量X ~ N(1, 2)，Y ~ N(3, 5)，则X+Y ～（不确定）

解析：主要看两个变量是否独立

8.如下图所示，若从A走到B过程中，只能向上或者向右走，则走法共有几种（64）

==>第四范式 k-means

解析：？？？？？

==>第四范式 k-means 53种

9.在Unix中，哪一个system call会创建新的进程（fork）

fork

create

new

none of the mentioned

10.产生interrupt有哪些方式（都对）

通过system bus给CPU发送signal

执行system call

以上选项都对

11.RAID level 3 每秒的IO次数很低是因为（每次IO请求需要访问所有硬盘）

每次IO请求需要访问所有硬盘

每次IO请求需要访问一块磁盘

IO花费的CPU时间很多

12.操作系统给每个（进程）维护page table

进程

线程

指令

地址

13.如果一个线程执行了exec system call，（exec会替换掉当前整个进程）

exec会在另一个进程中执行

exec会替换掉当前整个进程

exec会在本线程中执行

14.假设银行存款的每日利率为0.01%，那么利滚利一年之后收益率为多少（结果四舍五入）（3.7%）

解析：泰勒展开式 ==>第四范式 k-means

15.已知n % 11 = 10, n % 13 = 12, n % 17 = 16, 则合法的最小正整数n = （2430）

解析：通过观察可得:

(n+1)%11=0;

(n+1)%13=0;

(n+1)%17=0;

所以，min(n+1)=11*13*17=2431(即三个数的最小公倍数)，min(n)=2430。

16.对于一个有向有环图，其拓扑序（A不存在）

解析：根据拓扑排序的定义，对于有向无环图 G=(V,E)，V里顶点的线性序列称为一个拓扑序列，该顶点序列满足：若在有向无环图G中从顶点Vi到Vj有一条路径，则在序列中顶点Vi排在顶点Vj之前。若Vi到Vj有环，则两者先后顺序不确定，所以必须是有向无环图才存在拓扑序。

17.堆排序的额外空间复杂度是（O(1)）

堆排序不需要额外空间，只通过位置交换进行排序

18.

给定一个由n个点，m条边组成的无向图（注意，此图可能不连通），对任意1 ≤ i ≤ m存在一条边连接u[i], v[i]。回答此图是不是二分图。二分图定义为存在一种给图中每一个点染上黑白两色其中之一的着色方式，使得对每一对有边直接相连的点颜色不同。

importjava.util.Scanner;

publicclassMain

{

publicstaticintn_vertex;

publicstaticintn_edges;

publicstaticint[][] adjMatrix;

publicstaticint[] color;

publicstaticbooleandfs(intv,intc)

{

color[v]=c;

for(inti=1;i<=n_vertex;i++)

{

if(adjMatrix[v][i]==1)

{

if(color[i]==c)

returnfalse;

if(color[i]==0&& !dfs(i,-c))

returnfalse;

}

returntrue;

}

publicstaticString viewAll()

{

for(inti=1;i<=n_vertex;i++)

{

if(color[i]==0)

{

if(!dfs(i,1))

{

return"No";

}

return"Yes";

}

publicstaticvoidmain(String[] args)

{

Scanner in = newScanner(System.in);

n_vertex=in.nextInt();

n_edges=in.nextInt();

color=newint[n_vertex+1];

adjMatrix=newint[n_vertex+1][n_vertex+1];

for(inti=0;i<n_edges;i++)

{

intstart=in.nextInt();

intend=in.nextInt();

adjMatrix[start][end]=1;

adjMatrix[end][start]=1;

}

System.out.println(viewAll());

}