【发布时间】:2016-11-30 00:07:05
【问题描述】:
我是 NLP 新手,有一个非常简单的问题,我预计会被问到很多,但老实说在任何地方都找不到:可以在同一个分类器中使用多种类型的 ngram(例如 unigrams + bigrams)吗?
我已经尝试过这样做,并且至少对于朴素贝叶斯来说,它给了我比仅二元组更高的准确度(尽管低于一元组),但我不确定这是否是一种合法的做法。我担心的一个问题是可能存在多重共线性,如果这甚至是一个适用的术语,即“好运”和“好运”都在信息量最多的特征列表的顶部附近。
【问题讨论】:
标签: nlp nltk sentiment-analysis n-gram