【发布时间】:2013-08-19 14:08:24
【问题描述】:
我想在我的程序中使用特征提取,然后估计每个特征的最佳权重并计算新输入记录的分数。
例如,我有一个释义数据集。该数据集中的每条记录是一对两个句子,两个句子的相似度用一个介于 0 和 1 之间的值表示。 4 个特征,我用这些特征值和相似度分数创建了新的数据集。我想使用这个新数据集来学习权重:
释义数据集:
"A problem was solved by a mathematician"; "A mathematician was found a solution for a problem"; 0.9
.
.
新数据集:
0.42; 0.61; 0.21; 0.73; 0.9
.
.
我想使用回归来估计每个特征的权重。我想用公式1计算程序中输入句子的相似度:S = W1*F1 + W2*F2 + W3*F3 + W4*F4
我知道回归算法可以用于这项工作,但我不知道如何?请指导我做这项工作? 是否有任何论文或文档使用了回归算法?
【问题讨论】:
-
您应该重新表述您的问题: 1. 不清楚您的数据是什么样的,每个对象是否有很多特征?有哪些特点?数字?分类的? 2.你所说的“分类算法”是什么意思——你使用一些机器学习方法对你的数据进行分类?还是因为简单的规则而简单地应用了一些标签? 3. 您对短语“特征提取”的使用似乎不正确,您所说的“我想使用此特征提取”是什么意思? 4. “最佳体重”是什么意思?加权的意义是什么意思?什么意义上的最优?分类准确率?
-
好的,我更新了问题。
-
您是在寻找回归的数学公式,还是代码实现?如果是前者,请使用姐妹网站CrossValidated
标签: machine-learning regression prediction estimation feature-extraction