机器学习习题
例题
已知输入变量x,判别模型(discriminative model)通过求解条件概率分布P(y|x)或者直接计算y的值来预测y。生成模型(generative model)通过对观测值和标注数据计算联合概率分布P(x,y)来达到判定估算y的目的。
常见的判别模型有线性回归(Linear Regression),逻辑回归(Logistic Regression),支持向量机(SVM), 传统神经网络(Traditional Neural Networks),线性判别分析(Linear Discriminative Analysis),条件随机场(Conditional Random Field);常见的生成模型有朴素贝叶斯(Naive Bayes), 隐马尔科夫模型(HMM),贝叶斯网络(Bayesian Networks)和隐含狄利克雷分布(Latent Dirichlet Allocation)。
A选项的隐马尔科夫模型和 B选项的朴素贝叶斯属于生成模型。C选项的LDA,如果是指Linear Discriminative Analysis,那么属于判别模型,如果是指 Latent Dirichlet Allocation,那么属于生成模型。D选项的支持向量机属于判别模型。
例题2
该题考察的是最大概率分词,其基本思想是:一个待切分的汉字串可能包含多种分词结果,将其中概率最大的作为该字串的分词结果。若某候选词在训练语料中未出现,其概率为0。
- A分词结果的概率为P(A)=P(南京市)*P(长江)*P(大桥),由于“长江”未在语料中出现,所以P(长江)=0,从而P(A)=0;
- 同理可以算出B, C, D分词结果的概率分别是:
P(B)=P(南京)P(市长)P(江大桥)=0.80.60.4=0.192;
P(C )=P(南京市长)P(江大桥)=00.4=0;
P(D)=P(南京市)P(长江大桥)=0.30.5=0.15。
因为P(B)最大,所以为正确的分词结果。
例题 3
中文分词的基本方法可以分为基于语法规则的方法、基于词典的方法和基于统计的方法。
基于语法规则的分词法基本思想是在分词的同时进行句法、语义分析, 利用句法信息和语义信息来进行词性标注, 以解决分词歧义现象。因为现有的语法知识、句法规则十分笼统、复杂, 基于语法和规则的分词法所能达到的精确度远远还不能令人满意, 目前这种分词系统应用较少。
在基于词典的方法中,可以进一步分为最大匹配法,最大概率法,最短路径法等。最大匹配法指的是按照一定顺序选取字符串中的若干个字当做一个词,去词典中查找。根据扫描方式可细分为:正向最大匹配,反向最大匹配,双向最大匹配,最小切分。最大概率法指的是一个待切分的汉字串可能包含多种分词结果,将其中概率最大的那个作为该字串的分词结果。最短路径法指的是在词图上选择一条词数最少的路径。
基于统计的分词法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。词是字的组合,相邻的字同时出现的次数越多, 就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度。常用的方法有HMM(隐马尔科夫模型),MAXENT(最大熵模型),MEMM(最大熵隐马尔科夫模型),CRF(条件随机场)。
本题中,基于统计的方法为条件随机场。ABC三个选项为基于词典的方法。
例题4
混淆矩阵
True Positive(真正,TP):将正类预测为正类数
True Negative(真负,TN):将负类预测为负类数
False Positive(假正,FP):将负类预测为正类数误报 (Type I error)
False Negative(假负,FN):将正类预测为负类数→漏报 (Type II error)
**准确率(Accuracy)**就是被分对的样本数除以所有的样本数,通常来说,正确率越高,分类器越好。
对于分类器,主要的评价指标有precision,recall,F-score,以及ROC曲线等。
在二分类问题中,我们主要关注的是测试集的正样本能否正确分类。当样本不均衡时,比如样本中负样本数量远远多于正样本,此时如果负样本能够全部正确分类,而正样本只能部分正确分类,那么(TP+TN)可以得到很高的值,也就是Accuracy是个较大的值,但是正样本并没有取得良好的分类效果。因此A选项是不合理的。在样本不均衡时,可以采用BCD选项方法来评价。