【问题标题】:How to combine different NLP features for machine learning?如何结合不同的 NLP 特征进行机器学习?
【发布时间】:2012-08-13 18:03:03
【问题描述】:
我正在尝试使用不同的 NLP 功能进行一些 KNN 学习。
例如,我想使用词袋和本地 POS 标签。
另外,我对如何计算单个特征的相似度有一些想法。就像使用计数的余弦相似度(对于词袋向量),或者可能使用汉明距离作为 POS 标签。
但是,我不知道如何将两者结合起来。该地区的人通常如何做到这一点?
谁能帮我解决这个问题?
提前致谢。
【问题讨论】:
标签:
machine-learning
nlp
similarity
knn
feature-selection
【解决方案1】:
我会使用这两个功能的简单线性组合。因此,您使用余弦相似度和 POS 标签的汉明距离单独比较词袋向量,然后取两个结果的平均值。所以如果余弦比较和汉明距离的结果如下:
rank score cosine Hamming
-------------------------------
1 red blue
2 blue yellow
3 yellow orange
4 orange red
那么最终排名(如果您想更加重视排名较高的标签,当然可以更改为高于该排名分数,例如指数级)将如下(分数越低越好) :
label total score
--------------------
blue 3
red 5
yellow 5
orange 7
所以输出标签是blue。在这种情况下,线性组合将 50% 的权重放在余弦相似度输出上,将 50% 的权重放在汉明距离输出上。您可以使用不同的权重(例如,70% 余弦、30% 汉明)执行测试,以找到两种度量之间的最佳平衡。