【发布时间】:2018-02-23 19:56:28
【问题描述】:
现在我正在使用CountVectorizer 来提取特征。但是,我需要计算拟合过程中没有看到的单词。
在转换期间,CountVectorizer 的默认行为是忽略拟合期间未观察到的单词。但我需要记录这种情况发生了多少次!
我该怎么做?
谢谢!
【问题讨论】:
标签: python scikit-learn
现在我正在使用CountVectorizer 来提取特征。但是,我需要计算拟合过程中没有看到的单词。
在转换期间,CountVectorizer 的默认行为是忽略拟合期间未观察到的单词。但我需要记录这种情况发生了多少次!
我该怎么做?
谢谢!
【问题讨论】:
标签: python scikit-learn
scikit-learn 中没有内置的方法可以做到这一点,您需要编写一些额外的代码才能做到这一点。但是,您可以使用CountVectorizer 的vocabulary_ 属性来实现此目的。
【讨论】: