【问题标题】:Comparison of binary vs tfidf Ngram features in sentiment analysis / classification tasks?情感分析/分类任务中二进制与 tfidf Ngram 特征的比较?
【发布时间】:2013-01-10 12:40:21
【问题描述】:

又是一个简单的问题:将 Ngrams(unigram/bigrams 等)用作简单的二进制特征,还是在 ML 模型(例如支持向量机)中使用它们的 Tfidf 分数来执行 NLP 任务(例如情感分析或文本分类/分类)更好?

【问题讨论】:

  • 除非您使用已知和使用过的数据集,否则唯一能回答此问题的人就是您。
  • 从技术上讲,tf-idf 关注查询的全局搭配,而 ngram 关注您触发的查询中单词的本地化搭配。当您证明一个是否比另一个更有效时,您可以得出结论,全局/局部线索是否显着改善了情绪分析
  • 在我的实验中,关于短聊天句子的分类,我发现使用 IDF 比二进制特征稍微提高了性能。随着训练集变得更大,改进变得更小。但是,如前所述,YMMV。

标签: machine-learning nlp artificial-intelligence n-gram tf-idf


【解决方案1】:

正如史蒂夫在评论中提到的,最好的答案(以及 ML 风格的方式)是尝试!

话虽如此,我将从二进制特征开始。您的机器学习模型(如 SVM)的目标是确定这些特征的“权重”,因此如果它有效,您不必尝试提前设置此权重(使用 TFIDF 或其他)。

【讨论】:

    猜你喜欢
    • 2013-02-07
    • 2023-02-03
    • 2014-06-08
    • 2017-03-20
    • 2020-12-19
    • 2019-05-21
    • 1970-01-01
    • 2019-05-14
    • 2020-05-30
    相关资源
    最近更新 更多