CountVectorizer 和词汇外 (OOV) 标记？

【问题标题】：CountVectorizer and Out-Of-Vocabulary (OOV) tokens?CountVectorizer 和词汇外 (OOV) 标记？
【发布时间】：2018-02-23 19:56:28
【问题描述】：

现在我正在使用CountVectorizer 来提取特征。但是，我需要计算拟合过程中没有看到的单词。

在转换期间，CountVectorizer 的默认行为是忽略拟合期间未观察到的单词。但我需要记录这种情况发生了多少次！

我该怎么做？

谢谢！

【问题讨论】：

【解决方案1】：

scikit-learn 中没有内置的方法可以做到这一点，您需要编写一些额外的代码才能做到这一点。但是，您可以使用CountVectorizer 的vocabulary_ 属性来实现此目的。

【讨论】：