【问题标题】:Estimate the optimal weight of each feature with regression使用回归估计每个特征的最佳权重
【发布时间】:2013-08-19 14:08:24
【问题描述】:

我想在我的程序中使用特征提取,然后估计每个特征的最佳权重并计算新输入记录的分数。

例如,我有一个释义数据集。该数据集中的每条记录是一对两个句子,两个句子的相似度用一个介于 0 和 1 之间的值表示。 4 个特征,我用这些特征值和相似度分数创建了新的数据集。我想使用这个新数据集来学习权重:

释义数据集:

"A problem was solved by a mathematician"; "A mathematician was found a solution for a problem"; 0.9  
.  
.   

新数据集:

0.42; 0.61; 0.21; 0.73; 0.9
.  
.

我想使用回归来估计每个特征的权重。我想用公式1计算程序中输入句子的相似度:S = W1*F1 + W2*F2 + W3*F3 + W4*F4

我知道回归算法可以用于这项工作,但我不知道如何?请指导我做这项工作? 是否有任何论文或文档使用了回归算法?

【问题讨论】:

  • 您应该重新表述您的问题: 1. 不清楚您的数据是什么样的,每个对象是否有很多特征?有哪些特点?数字?分类的? 2.你所说的“分类算法”是什么意思——你使用一些机器学习方法对你的数据进行分类?还是因为简单的规则而简单地应用了一些标签? 3. 您对短语“特征提取”的使用似乎不正确,您所说的“我想使用此特征提取”是什么意思? 4. “最佳体重”是什么意思?加权的意义是什么意思?什么意义上的最优?分类准确率?
  • 好的,我更新了问题。
  • 您是在寻找回归的数学公式,还是代码实现?如果是前者,请使用姐妹网站CrossValidated

标签: machine-learning regression prediction estimation feature-extraction


【解决方案1】:

您正在寻找的是一个简单的 linear regression(顺便说一下,这不是算法,而是 - 数据建模方法,算法用于查找线性回归参数,但回归本身不是算法),但您还应该将偏差(截距)项添加到方程中,使其变为:

S = w1*f1 + w2*f2 + w3*f3 + w4*f4 + b

或矢量化格式

s = <F,W> + b

&lt;F,W&gt; 是权重和特征的内积,b 是偏差(实值变量)

为了统一,可以加一个常数值f5=1,并包含w5而不是b,这样就变成了

s = <F,W>

可以使用Ordinary Least Squares方法解决

W = (F'F)^(-1)F's

这会导致残差平方和的最佳线性回归。

在每种编程语言中,您都会找到用于执行线性回归的库,因此您不必自己实现它。特别是库也会注意引入b变量,所以不需要自己实现。

【讨论】:

  • 谢谢。但是我不知道W表示每个特征的影响还是只是一个系数?而且我不明白为什么我应该在功能集中设置 b 以及应该为 b 设置什么值(为什么是 1)?非常感谢您的关注。
  • 这些系数可以解释为影响(在有限的范围内)。您需要一个b 参数,以便您可以定义任何类型的超平面,如果没有此参数,您的所有模型(超平面)都必须经过原点(因此对于特征值f1=f2=f3=f4=0必须是 s=0,引入 b 参数使得s&gt;0 可以用于f1=f2=f3=f4=0)。我们没有设置b=1,而是设置f5=1,所以我们可以将w5 视为b——你可以选择任何非零常数,这并不重要。
  • 好的。我在 Matlab 中编写了一个执行 W=(F'F)^(-1)F's 的程序。结果表明某些特征的权重小于 0。是否表明这些特征(对于权重小于 0 的特征)并不重要,我应该在计算 S 时将其删除?
  • 不,负值仅仅意味着,这些特征对于降低相似度很重要。考虑一维线性函数f(x) = -x。唯一维度的最佳权重是-1 - 这并不意味着xf 不重要,它只是意味着它对f 值有“负面”影响
  • 你选择了最简单的模型,不要指望这里有合理的权重。语义相似性是 NLP 中的一个复杂问题,在执行如此简单的操作后,您不会得到“合理”的权重。在将超平面拟合到数据的意义上,您只需拥有最佳权重(正权和负权),仅此而已。 SO 不是解决语义相似性建模的地方,您只是可以获得技术问题的答案,据我所知,这已经明确解决了。
猜你喜欢
  • 2021-04-11
  • 2017-09-20
  • 2015-06-14
  • 2018-12-29
  • 2016-01-12
  • 1970-01-01
  • 2019-09-01
  • 1970-01-01
  • 2015-10-10
相关资源
最近更新 更多