【发布时间】:2019-02-06 18:56:06
【问题描述】:
我正在使用TfidfVectorizer
带有以下参数:
smooth_idf=False, sublinear_tf=False, norm=None, analyzer='word', ngram_range=(1,2)
我正在对以下文本进行矢量化:“红色太阳,粉红色糖果。绿色花。”
这是get_feature_names():的输出
['candy', 'candy green', 'coffee', 'flower', 'green', 'green flower', 'hate', 'icecream', 'like', 'moon', 'pink', 'pink candy', 'red', 'red sun', 'sun', 'sun pink']
既然“candy”和“green”是独立句子的一部分,为什么要创建“candy green” n-gram?
有没有办法防止生成多个句子的 n-gram?
【问题讨论】:
-
我相信矢量化器中没有
sentence。一本书只是一系列单词的集合。
标签: scikit-learn tf-idf