Conditional Likelihood Maximisation: A Unifying Framework for Information Theoretic Feature Selecti

1、文章信息

Title: Conditional Likelihood Maximisation: A Unifying Framework for Information Theoretic Feature Selection

Author: Gavin Brown, Adam Pocock, Ming-Jie Zhao, Mike Lujan

Affiliation: School of Computer Science, University of Mancheste

Abstract: 首先提出一个通用的基于信息论的特征选择算法框架。将近20年的启发式Filter算法统一起来。这种方式回答了：基于互信息的特征选择算法的隐含统计学假设是什么。为了回答这些问题，不同于以前特征选择的文献，我们采用了不同的策略。传统的特征选择方法一般都是定义评价标准，但是我们从训练标签的条件可能性推导出评价标准。然而许多手工设计的启发式评价标准以优化特征的相关性和冗余性为宗旨，我们的方法采用概率的框架，很自然的与上述的思想保持一致。结果我们将多种近20年已经发表的评价标准进行统一，并且以低阶近似的方式来显示他们。主要贡献是定义了一个通用的基于信息论的启发式特征选择方法（将马尔可夫毯作为一个特殊的例子）。通过大量的实证研究提供了充分的证据。总之，我们可以得出结论JMI算法在准确度、稳定性及小数据量的灵活度方面提供了最好的折衷。

2、主要思想

首先对信息熵相关概念进行介绍：

2.1信息熵：

信息熵
$H(X)=-\sum_{x\in X}p(x)\log p(x)$
可以将信息熵看成是 $\log(\frac{1}{p(x)})$ 的期望值。
$E(\log\frac{1}{p(X)})=\sum_{x\in X}p(x)\log(\frac{1}{p(x)})$
对于离散变量X，我们可以通过变量x出现的次数除以总数量来估计p(x). $\hat p= \frac{\#n}{N}$
联合熵
$(X,Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)\log(p(x,y)$
上式亦可表达为联合随机变量-log(p(X,Y))的期望值：
$H(X,Y)=-E\log p(X,Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)\log(p(x,y)$
用文氏图表达联合如图所示，由图可看出联合熵为 $H(X)$ 与 $H(Y)$ 的并。
Conditional Likelihood Maximisation: A Unifying Framework for Information Theoretic Feature Selecti
条件熵
$H(X|Y)=-\sum_{y\in Y}p(y)\sum_{x\in X}p(x|y)\log p(x|y)$
同理上式可以表示为期望的形式：
$H(X|Y)=-\sum_{y\in Y}p(y)\sum_{x\in X}p(x|y)\log p(x|y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)\log p(y|x)=-E\log p(X|Y)$
用文氏图表示条件互信息如下，条件互信息可以理解为在Y已知的情况下X仍旧存在的不确定性。
Conditional Likelihood Maximisation: A Unifying Framework for Information Theoretic Feature Selecti
互信息
互信息的定义：考虑两个随机变量X和Y，他们的联合概率密度函数为 $p(x,y)$ ，其编辑概率密度函数分别为 $p(x)$ 和 $p(y)$ 。互信息 $I(X;Y)$ 为联合分布 $p(x,y)$ 与 $p(x)p(y)$ 之间的相对熵。
$I(X;Y)=D(p(x,y)||p(x)p(y))=\sum_{x\in X}\sum_{y\in Y}p(x,y)\log \frac{p(x,y)}{p(x)p(y)}$
其物理意义可以理解为度量X和Y的共享信息：它度量指导其中一个变量Y时，对X的不确定性的减少程度。如果X和Y完全独立，则知道Y对X的不确定性不产生任何影响，所以他们的互信息为0.（ $\frac{p(x,y}{p(x)p(y)}=1$ ）
另外一种极端情况为X 是 Y 的一个确定性函数，且 Y 也是 X 的一个确定性函数，那么传递的所有信息被 X 和 Y 共享：知道 X 决定 Y 的值，反之亦然。因此，在此情形互信息与 Y（或 X）单独包含的不确定度相同，称作 Y（或 X）的熵。而且，这个互信息与 X 的熵和 Y 的熵相同。即： $I(X;Y)=I(X;X)=H(X)$

采用文氏图对互信息进行标识：
Conditional Likelihood Maximisation: A Unifying Framework for Information Theoretic Feature Selecti
由图可以得到相关的公式：
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ I(X;Y)=H(X)-H(…

条件互信息
$I(X;Y|Z)=H(X|Z)-H(X|YZ) =\sum_{z\in\Zeta}p(z)\sum_{x\in\Chi}\sum_{y\in\Upsilon}p(xy|z)log\frac{p(xy|z)}{p(x|z)p(y|z)}$
条件互信息的文氏图如图所示：
Conditional Likelihood Maximisation: A Unifying Framework for Information Theoretic Feature Selecti
I(X;Y|Z)可以理解为集合H(X)和集合H(Y)的共同部分然后删除掉与集合Z的重合部分。
$H(X)\bigcap H(Y)-H(Z)$

注：在信息熵中注意逗号“,”分号“;”与"|“的作用。逗号代表 $\bigcup$ ，分号代表 $\bigcap$ ，而”|"代表减的关系。
例如：
H(X,Y)代表 $H(X)\bigcup H(Y)$ ，H(X|Y)代表在H(X)中去除掉H(X)与H(Y)重合的部分I(X;Y)。
I(X;Y)代表集合H(X)与集合H(Y)的重合部分，I(X;Y|Z)代表H(X)与H(Y)的重合部分减去与H(Z)重合的部分，I(X;Y,Z)代表H(X)与H(Y)的重合部分加上与H(Z)重合的部分。

2.2 基于互信息的滤波算法

滤波算法一般定义一个评价标准J，用来衡量一个特征或者特征子集对于分类的有用程度。从直觉上来看，J应该是衡量特征与分类标签的的相关性，特征与分类之间的相关性越强，表示特征的预测能力更佳。对于标签Y， $X_k$ 的互信息评价标准为
$J_{mim}(X_k)=I(X_k;Y)$
分别考虑每个特征与标签之间的互信息的方式称为MIM(Mutual Information Maximisation)。
这种方式简单的将每个特征的互信息值进行排序，然后选取前K个作为选取的特征，其中K是事先定义好的选取特征的数量或者其他的停止标准。这种方式的局限之处在于其假设每个特征与其他所有的特征都是独立的。但是有些时候特征之间是相互依赖的，这样就导致不能得到最优结果。通常一个最优的特征子集不仅要求相关性，而且要求特征之间不相互冗余（特征之间不相关）。这种方式看起来很直观但是从严格意义上讲并不正确，这在后文当中会有介绍。基于此，相关但不冗余的方式被提了出来。例如Battiti(1994)提出了MIFS(Mutual Information Feature Selection)的评价标准为：
$J_{mifs}(X_k)=I(X_k;Y)-\beta \sum_{X_j\in S}I(X_k;X_j)$
这里 $S$ 是目前选择的特征。其中 $I(X_k;Y)$ 项确保特征的相关性，并且增加了一个与S中相关的一个惩罚项。注意，该方法假设我们顺序的选择特征，通过迭代的方式得到最终的特征子集。如果需要调研其他顺序的特征选择算法，读者可以参考Duch(2006)的文章。MIFS中的 $\beta$ 是一个可配置的参数，一般通过实验来获得。当 $\beta=0$ 时，此方法等价于MIM方法，独立的选择特征，然而当 $\beta$ 增加时，则更强调特征之间的相关性。在实验中Battiti发现当 $\beta=1$ 时时最优的，但是却没有理论依据。Yang and Moody(1999)和后来的Meyer et al.(2008)采用JMI(Joint Mutual Information)，将注意力放在特征之间的逐渐增加的互补信息。其公式如下：
$J_{jmi}(X_k)=\sum_{X_j\in S}I(X_kX_j;Y)$
定义了目标Y与 $X_kX_j$ 之间的互信息，将待评价特征 $X_k$ 与之前选择的特征分别进行联合。其主要思想是待选择特征是否与已经选择的特征具有互补性，如果有则选择。
MIFS和JMI方法是众多评价标准中最早进行相关性与冗余性进行折衷的方式，然后很明显他们有不同的出发点。下标总结了1992-2011年的特征选择方法。特征选择问题之前一直是手工设计的标准，然后用信息论的方法来修补评价标准，总体的目标就是做好相关性与冗余性的折衷，每一种评价标准都有不同的方向。但是下面有几个问题：我们该相信哪种方式？他们对数据有哪些假设？还有没有没有被发现的有效的方法？下面的章节我们将会针对以上问题提供一个全新的视角。

Criterion	Full Name	Authors
MIM	Mutual Information Maximisation	Lewis(1992)
MIFS	Mutual Information Feature Selection	Battiti(1994)
KS	Koller-Sahami metric	Koller and Sahami(1996)
JMI	Joint Mutual Information	Yang and Moody(1999)
MIFS-U	MIFS-Uniform	Kwak and Choi(2002)
IF	Informative Fragments	Vidal-Naquet and Ullman (2003)
FCBF	Fast Correlation Based Filter	Yu and Liu(2004)
AMIFS	Adaptive MIFS	Tesmer and Estevez (2004)
CMIM	Conditional Mutual Info Max	Fleuret (2004)
MRMR	Max-Relevance Min-Redundancy	Peng et al. (2005)
ICAP	Interaction Capping	Jakulin (2005)
CIFE	Conditional Infomax Feature Extraction	Lin and Tang (2006)
DISR	Double Input Symmetrical Relevance	Meyer and Bontempi (2006)
MINRED	Minimum Redundancy	Duch (2006)
IGFS	Interaction Gain Feature Selection	El Akadi et al. (2008)
SOA	Second Order Approximation	Guo and Nixon (2009)
CMIFS	Conditional MIFS	Cheng et al. (2011)

目录

1、文章信息

2、主要思想

2.1信息熵：

2.2 基于互信息的滤波算法