【发布时间】:2013-01-10 12:40:21
【问题描述】:
又是一个简单的问题:将 Ngrams(unigram/bigrams 等)用作简单的二进制特征,还是在 ML 模型(例如支持向量机)中使用它们的 Tfidf 分数来执行 NLP 任务(例如情感分析或文本分类/分类)更好?
【问题讨论】:
-
除非您使用已知和使用过的数据集,否则唯一能回答此问题的人就是您。
-
从技术上讲,tf-idf 关注查询的全局搭配,而 ngram 关注您触发的查询中单词的本地化搭配。当您证明一个是否比另一个更有效时,您可以得出结论,全局/局部线索是否显着改善了情绪分析
-
在我的实验中,关于短聊天句子的分类,我发现使用 IDF 比二进制特征稍微提高了性能。随着训练集变得更大,改进变得更小。但是,如前所述,YMMV。
标签: machine-learning nlp artificial-intelligence n-gram tf-idf