【问题标题】:How to combine different NLP features for machine learning?如何结合不同的 NLP 特征进行机器学习?
【发布时间】:2012-08-13 18:03:03
【问题描述】:

我正在尝试使用不同的 NLP 功能进行一些 KNN 学习。 例如,我想使用词袋和本地 POS 标签。

另外,我对如何计算单个特征的相似度有一些想法。就像使用计数的余弦相似度(对于词袋向量),或者可能使用汉明距离作为 POS 标签。

但是,我不知道如何将两者结合起来。该地区的人通常如何做到这一点? 谁能帮我解决这个问题?

提前致谢。

【问题讨论】:

    标签: machine-learning nlp similarity knn feature-selection


    【解决方案1】:

    我会使用这两个功能的简单线性组合。因此,您使用余弦相似度和 POS 标签的汉明距离单独比较词袋向量,然后取两个结果的平均值。所以如果余弦比较和汉明距离的结果如下:

    rank score    cosine    Hamming
    -------------------------------
    1             red       blue
    2             blue      yellow
    3             yellow    orange
    4             orange    red
    

    那么最终排名(如果您想更加重视排名较高的标签,当然可以更改为高于该排名分数,例如指数级)将如下(分数越低越好) :

    label    total score
    --------------------
    blue     3
    red      5
    yellow   5
    orange   7
    

    所以输出标签是blue。在这种情况下,线性组合将 50% 的权重放在余弦相似度输出上,将 50% 的权重放在汉明距离输出上。您可以使用不同的权重(例如,70% 余弦、30% 汉明)执行测试,以找到两种度量之间的最佳平衡。

    【讨论】:

      猜你喜欢
      • 2013-12-05
      • 2017-03-16
      • 1970-01-01
      • 2021-09-14
      • 1970-01-01
      • 2018-09-23
      • 2012-03-28
      • 2019-01-03
      • 2013-06-23
      相关资源
      最近更新 更多