【发布时间】:2017-03-10 09:52:27
【问题描述】:
CountVectorizer 是否支持部分拟合?
我想使用不同批次的数据训练CountVectorizer。
【问题讨论】:
标签: scikit-learn countvectorizer
CountVectorizer 是否支持部分拟合?
我想使用不同批次的数据训练CountVectorizer。
【问题讨论】:
标签: scikit-learn countvectorizer
不,它不支持部分拟合。
但是你可以编写一个简单的方法来实现你的目标:
def partial_fit(self , data):
if(hasattr(vectorizer , 'vocabulary_')):
vocab = self.vocabulary_
else:
vocab = {}
self.fit(data)
vocab = list(set(vocab.keys()).union(set(self.vocabulary_ )))
self.vocabulary_ = {vocab[i] : i for i in range(len(vocab))}
from sklearn.feature_extraction.text import CountVectorizer
CountVectorizer.partial_fit = partial_fit
vectorizer = CountVectorizer(stop_words=l)
vectorizer.fit(df[15].values[0:100])
vectorizer.partial_fit(df[15].values[100:200])
【讨论】: