【问题标题】:sklearn partial fit of CountVectorizerCountVectorizer 的 sklearn 部分拟合
【发布时间】:2017-03-10 09:52:27
【问题描述】:

CountVectorizer 是否支持部分拟合?

我想使用不同批次的数据训练CountVectorizer

【问题讨论】:

    标签: scikit-learn countvectorizer


    【解决方案1】:

    不,它不支持部分拟合。

    但是你可以编写一个简单的方法来实现你的目标:

    def partial_fit(self , data):
        if(hasattr(vectorizer , 'vocabulary_')):
            vocab = self.vocabulary_
        else:
            vocab = {}
        self.fit(data)
        vocab = list(set(vocab.keys()).union(set(self.vocabulary_ )))
        self.vocabulary_ = {vocab[i] : i for i in range(len(vocab))}
    
    from sklearn.feature_extraction.text import CountVectorizer
    CountVectorizer.partial_fit = partial_fit
    
    vectorizer = CountVectorizer(stop_words=l)
    vectorizer.fit(df[15].values[0:100])
    vectorizer.partial_fit(df[15].values[100:200])
    

    【讨论】:

      猜你喜欢
      • 2014-08-28
      • 2017-06-28
      • 2018-03-20
      • 2016-02-07
      • 2020-05-02
      • 2017-08-12
      • 1970-01-01
      • 2021-07-17
      • 2018-02-04
      相关资源
      最近更新 更多