【问题标题】:CountVectorizer and Out-Of-Vocabulary (OOV) tokens?CountVectorizer 和词汇外 (OOV) 标记?
【发布时间】:2018-02-23 19:56:28
【问题描述】:

现在我正在使用CountVectorizer 来提取特征。但是,我需要计算拟合过程中没有看到的单词。

在转换期间,CountVectorizer 的默认行为是忽略拟合期间未观察到的单词。但我需要记录这种情况发生了多少次!

我该怎么做?

谢谢!

【问题讨论】:

    标签: python scikit-learn


    【解决方案1】:

    scikit-learn 中没有内置的方法可以做到这一点,您需要编写一些额外的代码才能做到这一点。但是,您可以使用CountVectorizervocabulary_ 属性来实现此目的。

    1. 缓存当前词汇
    2. 调用 fit_transform
    3. 用新词汇和缓存词汇计算差异

    【讨论】:

      猜你喜欢
      • 2018-01-11
      • 2019-01-11
      • 2016-09-25
      • 2020-01-15
      • 2015-05-07
      • 2015-12-16
      • 2018-12-12
      • 2019-03-14
      • 2020-02-09
      相关资源
      最近更新 更多