情感分析/分类任务中二进制与 tfidf Ngram 特征的比较？答案

【问题标题】：Comparison of binary vs tfidf Ngram features in sentiment analysis / classification tasks?情感分析/分类任务中二进制与 tfidf Ngram 特征的比较？
【发布时间】：2013-01-10 12:40:21
【问题描述】：

又是一个简单的问题：将 Ngrams（unigram/bigrams 等）用作简单的二进制特征，还是在 ML 模型（例如支持向量机）中使用它们的 Tfidf 分数来执行 NLP 任务（例如情感分析或文本分类/分类）更好?

【问题讨论】：

除非您使用已知和使用过的数据集，否则唯一能回答此问题的人就是您。
从技术上讲，tf-idf 关注查询的全局搭配，而 ngram 关注您触发的查询中单词的本地化搭配。当您证明一个是否比另一个更有效时，您可以得出结论，全局/局部线索是否显着改善了情绪分析
在我的实验中，关于短聊天句子的分类，我发现使用 IDF 比二进制特征稍微提高了性能。随着训练集变得更大，改进变得更小。但是，如前所述，YMMV。

标签： machine-learning nlp artificial-intelligence n-gram tf-idf

【解决方案1】：

正如史蒂夫在评论中提到的，最好的答案（以及 ML 风格的方式）是尝试！

话虽如此，我将从二进制特征开始。您的机器学习模型（如 SVM）的目标是确定这些特征的“权重”，因此如果它有效，您不必尝试提前设置此权重（使用 TFIDF 或其他）。

【讨论】：