sparse linear regression with beta process priors

虽然翻译水平有限，但是看原文虽然看得懂，但是在词汇的问题上，会导致看了后面忘了前面，所以先蹩脚的翻译成中文，然后在仔细思考论文的思想（当然不能翻译成中文就不看英文原本了，得两者一起看，这样不会丢失前面的思路，加快论文理解速度），我想随着不断的翻译，应该会提升效果吧。希望不会误导别人才好。

sparse linear regression with beta process priors(2010)

Bo Chen,John Paisley and Lawrence Carin

摘要:在beta处理先验的基础上，提出了关于欠定的线性系统的最小L0范数解的贝叶斯逼近方法。这个beta process linear regression（BP-LR）模型可以找到这个欠定模型 sparse linear regression with beta process priors 的稀疏解，通过对向量x 建立一个关于非稀疏权重向量w和一个从BP先验中提取的稀疏二值向量z的逐元素乘积的模型。这个层次模型是全共轭的并且可以快速的对这个模型进行推导。我们在压缩感知问题和特性相关问题上证明这个模型的正确性，并且展现了BP-LR可以当保存相关特征的相关分组的时候，选择性的移出不相关的特征。

1引言

在本文中，我们通过使用BP prior的方法去找到欠定线性系统的稀疏解，假设这个线性系统是：

sparse linear regression with beta process priors （公式1）

这里 sparse linear regression with beta process priors 并且M<<N,向量的特性一般是一个受限的先验，通常有着下面的正则项：

sparse linear regression with beta process priors （公式2）

在这个式子中，这个解，xstar，是使用Lp范数项和欧式逼近误差项，并引入惩罚项lambda作为权衡两项之间的相对重要性。例如，当p=2，这个结果是ridge回归解，当p=1，这个结果是lasso。后者的解是众所周知用来生成稀疏解的，因为可以将xstar中许多的值都设置成等于0。

当表达这个先验中大多数的特征或者 sparse linear regression with beta process priors 中大多数的列都是关于y的预测值不相关的时候，稀疏性总是众望所归。减少特征的数量可以提升模型的生成能力，因此改善模型的效果。在贝叶斯环境中，通常考虑两个模型：相关性向量机（RVM）和贝叶斯lasso，后者可以当以边缘形式写来生成L1惩罚函数。

理想情况下，这个L0范数应该可以被引入；但是在压缩感知中，通常选择L1而不是L0，因为这是基于被证明两者都能在某种条件下找到相同的解。因为L1最小化的宽松的计算可以在以多项式（这里觉得用线性更好）的时间内被解决。另一方面，最小化L0范数，被证明是有NP-难的，需要在 sparse linear regression with beta process priors 的2^N子空间中进行枚举来找到解。因此找个逼近L0的方法就很必要了，这在全贝叶斯环境中通常推荐使用BPprior。

BP可以用来将向量x分解成权重向量w 和稀疏二值向量z 的逐元素相乘的形式：

sparse linear regression with beta process priors （公式3）

在二值向量 z 上的先验可以促使稀疏解并且激励他的分类成为L0解的逼近形式。这个解模型是一个在系数向量中稀疏化的BP-LR模型。

这个模型的自然应用是压缩感知问题，在这个问题中有着N维系数向量的许多基中是稀疏的，并且只在M<<N测量情况下使用。另一个应用是基因表达分析的分组中。在高度相关特征的情况中，RVM和贝叶斯lasso都是可以只选择单个特征并将剩下的相关特征权重设置成0.。这忽略了包含在相关基因中的信息，而这些可能对于医疗专业来说是很感兴趣的。我们会证明BP-LR模型可以被用在即使不需要收缩相关特征的情况下。

我们在部分2中复述了BP并且提出了BP-LR模型，并且在部分3中对压缩感知和分组选择问题上的实验进行解释，并在部分4中做总结。

2 BP-LR

这里扩展到有着两个参数的BP，是一个非参数化贝叶斯先验，并且有三个输入：两个正标量，a和b；一个基测量，H0，并表示成 sparse linear regression with beta process priors 。这里考虑的模型，这里的基测量是自带离散的，：

sparse linear regression with beta process priors （公式4）

这里 sparse linear regression with beta process priors 是的第 n 列，虽然因为原理性问题，BP只有在的情况下才是真的随机处理，但是因为这个基测量的离散化从而大大简化了这个模型。

假设N是一个合理的小数值，并且猜想这样一种情况：因为我们知道 sparse linear regression with beta process priors ，所以这个离散的BP可以直接得到并且只需要向量Pi的生成：

sparse linear regression with beta process priors （公式5）

对于n = 1，...，N来说，这个结果H，不像H0一样，不是一个概率测量。因此不是直接从H中采样，但是H 可以用来作为伯努力处理， sparse linear regression with beta process priors 的参数，这里，而且二值向量 z 是由下面的式子生成的：

sparse linear regression with beta process priors （公式6）

对于n = 1，...，N来说，这个结果向量 z 是在向量PI的基础上稀疏的；我们在下面检查这个先验的一些原理性的特性。

因此BP提供了一个自然框架去执行稀疏线性回归，并且结合权重向量w使用的时候，他可以得到下面的BP-LR模型：

sparse linear regression with beta process priors

对于n = 1，...，N来说，这里的符号 o 表示的是两个向量或者矩阵的逐元素相乘。在这个模型中我们定义 sparse linear regression with beta process priors ，这里的z提供稀疏性机制，w 为z 在中选定的权重向量。

考虑到本文篇幅限制，我们不提供式子的推导过程。然而我们提到这个模型的充分分析性可以允许我们进行快速的可变推导，除了MCMC Gibbs 采样方法。我们同样注意到分离的 gamma先验可以放在逆方差上 sparse linear regression with beta process priors ，我们发现在模型学习上这个逆方差有着明显的有益的影响。文献【11】和参考文献中有着在BP上更详细的推导。图1是这个模型的一个图表示。

sparse linear regression with beta process priors

2.1 超参数b 和 b 的设置

这个参数a 和b 在模型学习上有着明显的影响，所以需要仔细的考虑。因此我们提供一个设置a 和b的方法，是关于这两个不同参数的函数，S和F，这山里都有个直观的理解。

定义 sparse linear regression with beta process priors 并考虑是一个概率为0的事件，x 的期望L0范数，可以通过计算来得到

sparse linear regression with beta process priors （公式12）

这里的参数可以设置成合适的稀疏级别。我们注意到当 sparse linear regression with beta process priors 的时候，是个泊松分布，。

第二个参数 F ，可以设置成控制任何 sparse linear regression with beta process priors 的后验期望的最大值。也就是说在给定的情况下，的后验期望，等于：

sparse linear regression with beta process priors （公式13）

我们在下面的章节中讨论这些具体问题的值。使用这些参数，我们能解决a 和b 的问题：

sparse linear regression with beta process priors

3实验

我们这里考虑两个有关BP-LR的应用：高度相关特征的分组选择和压缩感知。

3.1 相关特征选择

经验性的实验显示RVM和贝叶斯lasso在处理高度相关特征的时候是通过选择一个（或一小部分）的特征，并将剩下的设置成0.然而，在许多情况下，人们想从一个特征上的权重扩展到组中所有特征上（例如：基因-表示数据分析的生物解释）。我们在一个N=500维的小型问题上实验了BP-LR模型的分组选择。我们的组是根据文献【17】中章节5d生成的并设置 sparse linear regression with beta process priors 。

在图3中，我们将S=100和F=75的情况下BP-LR模型的结果进行对比.在 sparse linear regression with beta process priors 上放置一个无信息gamma先验，并设置。我们可以发现这个BP模型可以选择三个组，或者前15个特征，而RVM和贝叶斯lasso模型只在每个组中选择了1个或者2个。这种分组的想法是因为在给定迭代（通过z）的情况下进行特征选择，并且可以使用一个非稀疏解的ridge回归来计算相对应的权重。因此在相关特征中的权重随着他们的选择而相互之间增长或下降。并且发现在噪音特征选择中这个MP-LR模型更具有稀疏性，系数的数量大于1e-2，对于BP-LR来说，等于14，而对于RVM来说等于23，而贝叶斯lasso等于46.

3.2压缩感知

对于压缩感知问题来说，我们使用图2这种128×128的图像，并用一系列CS反演算法来对比我们的模型。我们在图4中显示相关的错误，并用重建误差的幅度除以原始图像的大小。我们发现BP-LR模型（这里称之为BetaP CS ）在低信号到噪音条件下执行的特别好。

sparse linear regression with beta process priors

图5中，我们。。。下面的懒的翻了