如何结合不同的 NLP 特征进行机器学习？答案

【问题标题】：How to combine different NLP features for machine learning?如何结合不同的 NLP 特征进行机器学习？
【发布时间】：2012-08-13 18:03:03
【问题描述】：

我正在尝试使用不同的 NLP 功能进行一些 KNN 学习。例如，我想使用词袋和本地 POS 标签。

另外，我对如何计算单个特征的相似度有一些想法。就像使用计数的余弦相似度（对于词袋向量），或者可能使用汉明距离作为 POS 标签。

但是，我不知道如何将两者结合起来。该地区的人通常如何做到这一点？谁能帮我解决这个问题？

提前致谢。

【问题讨论】：

标签： machine-learning nlp similarity knn feature-selection

【解决方案1】：

我会使用这两个功能的简单线性组合。因此，您使用余弦相似度和 POS 标签的汉明距离单独比较词袋向量，然后取两个结果的平均值。所以如果余弦比较和汉明距离的结果如下：

rank score    cosine    Hamming
-------------------------------
1             red       blue
2             blue      yellow
3             yellow    orange
4             orange    red

那么最终排名（如果您想更加重视排名较高的标签，当然可以更改为高于该排名分数，例如指数级）将如下（分数越低越好）：

label    total score
--------------------
blue     3
red      5
yellow   5
orange   7

所以输出标签是blue。在这种情况下，线性组合将 50% 的权重放在余弦相似度输出上，将 50% 的权重放在汉明距离输出上。您可以使用不同的权重（例如，70% 余弦、30% 汉明）执行测试，以找到两种度量之间的最佳平衡。

【讨论】：