scikit learn中partial_fit遇到的错误答案

【问题标题】：Errors encountered in partial_fit in scikit learnscikit learn中partial_fit遇到的错误
【发布时间】：2015-12-18 06:19:42
【问题描述】：

在使用 scikit learn 中的 partial_fit 函数进行训练时，我在程序没有终止的情况下出现以下错误，即使经过训练的模型行为正确并给出正确的输出，这怎么可能以及这样做的后果是什么。这有什么好担心的吗？

/usr/lib/python2.7/dist-packages/sklearn/naive_bayes.py:207: RuntimeWarning: divide by zero encountered in log
  self.class_log_prior_ = (np.log(self.class_count_)

我正在使用以下修改后的训练函数，因为我必须维护一个标签\类的常量列表，因为 partial_fit 不允许在后续运行中添加新的类\标签，每批训练数据中的类先验都是相同的：

class MySklearnClassifier(SklearnClassifier):
    def train(self, labeled_featuresets,classes=None, partial=True):
        """
        Train (fit) the scikit-learn estimator.

        :param labeled_featuresets: A list of ``(featureset, label)``
            where each ``featureset`` is a dict mapping strings to either
            numbers, booleans or strings.
        """

        X, y = list(compat.izip(*labeled_featuresets))
        X = self._vectorizer.fit_transform(X)
        y = self._encoder.fit_transform(y)



        if partial:
            classes=self._encoder.fit_transform(list(set(classes)))
            self._clf.partial_fit(X, y, classes=list(set(classes)))
        else:
            self._clf.fit(X, y)

        return self

同样在第二次调用 partial_fit 时，它会抛出类 count=2000 的以下错误，并且在调用 model = self.train(featureset, classes=labels,partial=partial) 时训练样本为 3592：

self._clf.partial_fit(X, y, classes=list(set(classes)))
  File "/usr/lib/python2.7/dist-packages/sklearn/naive_bayes.py", line 277, in partial_fit
    self._count(X, Y)
  File "/usr/lib/python2.7/dist-packages/sklearn/naive_bayes.py", line 443, in _count
    self.feature_count_ += safe_sparse_dot(Y.T, X)
ValueError: operands could not be broadcast together with shapes (2000,11430) (2000,10728) (2000,11430)

根据抛出的错误，我哪里出错了？这是否意味着我正在推送不正确的尺寸数据？我试过以下，我现在打电话：

        X = self._vectorizer.transform(X)
        y = self._encoder.transform(y)

每次调用部分拟合。早些时候，我对每个 partialfit 调用都使用了 fittransform。这是正确的

class MySklearnClassifier(SklearnClassifier):
    def train(self, labeled_featuresets, classes=None, partial=False):
        """
        Train (fit) the scikit-learn estimator.

        :param labeled_featuresets: A list of ``(featureset, label)``
            where each ``featureset`` is a dict mapping strings to either
            numbers, booleans or strings.
        """

        X, y = list(compat.izip(*labeled_featuresets))

        if partial:
            classes = self._encoder.fit_transform(np.unique(classes))
            X = self._vectorizer.transform(X)
            y = self._encoder.transform(y)
            self._clf.partial_fit(X, y, classes=list(set(classes)))
        else:
             X = self._vectorizer.fit_transform(X)
             y = self._encoder.fit_transform(y)
             self._clf.fit(X, y)

        return self._clf

经过多次尝试，通过考虑第一次调用，我能够使以下代码正常工作，但我假设分类器腌制文件的大小在每次迭代后都会增加，但我得到的每个批次的 pkl 文件大小相同这是不可能的：

 class MySklearnClassifier(SklearnClassifier):

    def train(self, labeled_featuresets, classes=None, partial=False,firstcall=True):
        """
        Train (fit) the scikit-learn estimator.

        :param labeled_featuresets: A list of ``(featureset, label)``
            where each ``featureset`` is a dict mapping strings to either
            numbers, booleans or strings.
        """

        X, y = list(compat.izip(*labeled_featuresets))

        if partial:

           if firstcall:
                classes = self._encoder.fit_transform(np.unique(classes))
                X = self._vectorizer.fit_transform(X)
                y = self._encoder.fit_transform(y)
                self._clf.partial_fit(X, y, classes=classes)
           else:

                X = self._vectorizer.transform(X)
                y = self._encoder.fit_transform(y)
                self._clf.partial_fit(X, y)
        else:
             X = self._vectorizer.fit_transform(X)
             y = self._encoder.fit_transform(y)
             self._clf.fit(X, y)

        return self

这是完整的代码：

class postagger(ClassifierBasedTagger):
    """
    A classifier based postagger.
    """
    #MySklearnClassifier()
    def __init__(self, feature_detector=None, train=None,estimator=None,

                 classifierinstance=None, backoff=None,
                 cutoff_prob=None, verbose=True):

        if backoff is None:
            self._taggers = [self]
        else:
            self._taggers = [self] + backoff._taggers
        if estimator:
            classifier = MySklearnClassifier(estimator=estimator)
            #MySklearnClassifier.__init__(self, classifier)
        elif classifierinstance:
            classifier=classifierinstance






        if feature_detector is not None:
            self._feature_detector = feature_detector
            # The feature detector function, used to generate a featureset
            # or each token: feature_detector(tokens, index, history) -> featureset

        self._cutoff_prob = cutoff_prob
        """Cutoff probability for tagging -- if the probability of the
           most likely tag is less than this, then use backoff."""

        self._classifier = classifier
        """The classifier used to choose a tag for each token."""

        # if train and picklename:
        #     self._train(classifier_builder, picklename,tagged_corpus=train, ONLYERRORS=False,verbose=True,onlyfeatures=True ,LOADCONSTRUCTED=None)

    def legacy_getfeatures(self, tagged_corpus=None, ONLYERRORS=False, existingfeaturesetfile=None, verbose=True,
                           labels=artlabels):

        featureset = []
        labels=artlabels
        if not existingfeaturesetfile and tagged_corpus:
            if ONLYERRORS:

                classifier_corpus = open(tagged_corpus + '-ONLYERRORS.richfeature', 'w')
            else:
                classifier_corpus = open(tagged_corpus + '.richfeature', 'w')

            if verbose:
                print('Constructing featureset  for training corpus for classifier.')
            nlp = English()
            #df=pandas.DataFrame()
            store = HDFStore('featurestore.h5')



            for sentence in sPickle.s_load(open(tagged_corpus,'r')):
                untagged_words, tags, senindex = zip(*sentence)
                doc = nlp(u' '.join(untagged_words))
                # untagged_sentence, tags , rest = unpack_three(*zip(*sentence))
                for index in range(len(sentence)):
                    if ONLYERRORS:
                        if tags[index] == '<!SAME!>' and random.random() < 0.05:
                            featureset = self.new_feature_detector(doc, index)
                            sPickle.s_dump_elt((featureset, tags[index]), classifier_corpus)
                            featureset['label']=tags[index]
                            featureset['senindex']=str(senindex[0])
                            featureset['wordindex']=index
                            df=pandas.DataFrame([featureset])
                            store.append('df',df,index=False,min_itemsize = 150)
                            # classifier_corpus.append((featureset, tags[index]))
                        elif tags[index] in labels:
                            featureset = self.new_feature_detector(doc, index)
                            sPickle.s_dump_elt((featureset, tags[index]), classifier_corpus)
                            featureset['label']=tags[index]
                            featureset['senindex']=str(senindex[0])
                            featureset['wordindex']=index
                            df=pandas.DataFrame([featureset])
                            store.append('df',df,index=False,min_itemsize = 150)


                        # classifier_corpus.append((featureset, tags[index]))
        # else:
        #     for element in sPickle.s_load(open(existingfeaturesetfile, 'w')):
        #         featureset.append( element)

        return tagged_corpus + '.richfeature'

    def _train(self, featuresetdata, classifier_builder=MultinomialNB(), partial=False, batchsize=500):
        """
        Build a new classifier, based on the given training data
        *tagged_corpus*.

        """



        #labels = set(cPickle.load(open(arguments['-k'], 'r')))
        if partial==False:
           print('Training classifier FULLMODE')
           featureset = []
           for element in sPickle.s_load(open(featuresetdata, 'r')):
               featureset.append(element)

           model = self._classifier.train(featureset, classes=artlabels, partial=False,firstcall=True)
           print('Training complete, dumping')
           try:
            joblib.dump(model,  str(featuresetdata) + '-FULLTRAIN ' + slugify(str(classifier_builder))[:10] +'.mpkl')
            print "joblib dumped"
           except:
               print "joblib error"
           cPickle.dump(model, open(str(featuresetdata) + '-FULLTRAIN ' + slugify(str(classifier_builder))[:10] +'.cmpkl', 'w'))
           print('dumped')
           return
        #joblib.dump(self._classifier,str(datetime.datetime.now().hour)+'-naivebayes.pickle',compress=0)

        print('Training classifier each batch of {} training points'.format(batchsize))

        for i, batchelement in enumerate(batch(sPickle.s_load(open(featuresetdata, 'r')), batchsize)):
            featureset = []
            for element in batchelement:
                featureset.append(element)



            # model =  super(postagger, self).train (featureset, partial)
            # pdb.set_trace()
            # featureset = [item for sublist in featureset for item in sublist]
            trainsize = len(featureset)
            print("submitting {} training points for training\neg last one:".format(trainsize))
            for d, l in featureset:
                if len(d) != 113:
                    print d
                    assert False

            print featureset[-1]
            # pdb.set_trace()
            try:
                if i==0:
                    model = self._classifier.train(featureset, classes=artlabels, partial=True,firstcall=True)
                else:
                    model = self._classifier.train(featureset, classes=artlabels, partial=True,firstcall=False)

            except:
                type, value, tb = sys.exc_info()
                traceback.print_exc()
                pdb.post_mortem(tb)

            print('Training for batch {} complete, dumping'.format(i))
            cPickle.dump(model, open(
                str(featuresetdata) + '-' + slugify(str(classifier_builder))[
                                            :10] + 'UPDATED batch-{} of {} points.mpkl'.format(
                    i, trainsize), 'w'))
            print('dumped')
        #joblib.dump(self._classifier,str(datetime.datetime.now().hour)+'-naivebayes.pickle',compress=0)

    def untag(self,tagged_sentence):
        """
        Given a tagged sentence, return an untagged version of that
        sentence.  I.e., return a list containing the first element
        of each tuple in *tagged_sentence*.

            >>> from nltk.tag.util import untag
            >>> untag([('John', 'NNP'), ('saw', 'VBD'), ('Mary', 'NNP')])
            ['John', 'saw', 'Mary']

        """

        return [w[0] for w in tagged_sentence]

    def evaluate(self, gold):
        """
        Score the accuracy of the tagger against the gold standard.
        Strip the tags from the gold standard text, retag it using
        the tagger, then compute the accuracy score.

        :type gold: list(list(tuple(str, str)))
        :param gold: The list of tagged sentences to score the tagger on.
        :rtype: float
        """
        gold_tokens=[]
        full_gold_tokens=[]

        tagged_sents = self.tag_sents(self.untag(sent) for sent in gold)
        for sentence in gold:#flatten the list

            untagged_sentences, goldtags,type_feature,startpos_feature,sentence_feature,senindex_feature = zip(*sentence)


            gold_tokens.extend(zip(untagged_sentences,goldtags))
            full_gold_tokens.extend(zip( untagged_sentences, goldtags,type_feature,startpos_feature,sentence_feature,senindex_feature))





        test_tokens = sum(tagged_sents, []) #flatten the list
        getmismatch(gold_tokens,test_tokens,full_gold_tokens)
        return accuracy(gold_tokens, test_tokens)

    #
    def new_feature_detector(self, tokens, index):
        return getfeatures(tokens, index)


    def tag_sents(self, sentences):
        """
        Apply ``self.tag()`` to each element of *sentences*.  I.e.:

            return [self.tag(sent) for sent in sentences]
        """
        return [self.tag(sent) for sent in sentences]

    def tag(self, tokens):
        # docs inherited from TaggerI
        tags = []
        for i in range(len(tokens)):
            tags.append(self.tag_one(tokens, i))
        return list(zip(tokens, tags))

    def tag_one(self, tokens, index):
        """
        Determine an appropriate tag for the specified token, and
        return that tag.  If this tagger is unable to determine a tag
        for the specified token, then its backoff tagger is consulted.

        :rtype: str
        :type tokens: list
        :param tokens: The list of words that are being tagged.
        :type index: int
        :param index: The index of the word whose tag should be
            returned.
        :type history: list(str)
        :param history: A list of the tags for all words before *index*.
        """
        tag = None
        for tagger in self._taggers:
            tag = tagger.choose_tag(tokens, index)
            if tag is not None:  break
        return tag

    def choose_tag(self, tokens, index):
        # Use our feature detector to get the featureset.
        featureset = self.new_feature_detector(tokens, index)

        # Use the classifier to pick a tag.  If a cutoff probability
        # was specified, then check that the tag's probability is
        # higher than that cutoff first; otherwise, return None.

        if self._cutoff_prob is None:
            return self._classifier.prob_classify_many([featureset])
            #return self._classifier.classify_many([featureset])


        pdist = self._classifier.prob_classify_many([featureset])
        tag = pdist.max()
        return tag if pdist.prob(tag) >= self._cutoff_prob else None

【问题讨论】：

那么，您是否在不同的数据集块上多次调用 MySklearnClassifier.train 方法？ self._vectorizer 和 self._encoder 是 DictVectorizer 和 OneHotEncoder？
@Olologin 是的，我确实叫它
你为什么要把标签编码成二进制？所有分类器都可以在整数标签上工作。此外，如果您想在数据集的子集上对分类器进行 partial_fit - 您应该每次都调用 partial_fit（即使是第一次），并且您应该在第一次调用时提供类列表。因此，在第一次调用 partial_fit 时，您应该知道整个数据集中可能的类集。
@Olologin 我在哪里将标签编码为二进制？我对部分拟合的第二个代码摘录正确吗？
X = self._vectorizer.transform(X) y = self._encoder.transform(y)

标签： python machine-learning scikit-learn

【解决方案1】：

1。 `RuntimeWarning`

您收到此警告是因为 np.log 在 0 上被调用：

In [6]: np.log(0)
/home/anaconda/envs/python34/lib/python3.4/site-packages/ipykernel/__main__.py:1: RuntimeWarning: divide by zero encountered in log
  if __name__ == '__main__':
Out[6]: -inf

这是因为在您的一次调用中，某些类根本没有表示（它们的计数为 0），因此 np.log 被调用为 0。您无需担心。

2。类先验

我正在使用以下修改后的训练函数，因为我必须维护一个标签\类的常量列表，因为 partial_fit 不允许在后续运行中添加新的类\标签，每批训练数据中的类先验都是相同的

你是对的，如果你使用partial_fit，你需要从一开始就传递标签/类列表。
我不确定每批训练数据中的先验类是否相同。这可能有几种不同的含义，如果你能澄清你在这里的意思会很好。
同时，MultinomialNB 等分类器的默认行为是它们先于数据拟合（基本上它们计算频率）。当使用partial_fit 时，他们将增量进行此计算，以便您获得与使用单个fit 调用相同的结果。

3。你的错误

同样在第二次调用 partial_fit 时，它会抛出类 count=2000 的以下错误，调用 model = self.train(featureset, classes=labels,partial=partial) 时训练样本为 3592

这里我们需要更多细节。我很困惑X 的形状是(n_samples, n_features)，但在回溯中它似乎是(2000,11430) 的形状。这意味着X 有 2000 个样本。

该错误确实意味着您输入的尺寸不一致。我建议为每个partial_fit 调用打印X.shape、y.shape 矢量化后。

此外，您不应该在为每个partial_fit 调用转换X 的矢量化器上调用fit 或fit_transform：您应该适合它一次，然后只需转换X。这个是为了确保您获得转换后的 X 的一致尺寸。

4。您的“早期”解决方案

这是您告诉我们您正在使用的代码：

class MySklearnClassifier(SklearnClassifier):
    def train(self, labeled_featuresets, classes=None, partial=False):
        """
        Train (fit) the scikit-learn estimator.

        :param labeled_featuresets: A list of ``(featureset, label)``
            where each ``featureset`` is a dict mapping strings to either
            numbers, booleans or strings.
        """

        X, y = list(compat.izip(*labeled_featuresets))

        if partial:
            classes = self._encoder.fit_transform(np.unique(classes))
            X = self._vectorizer.transform(X)
            y = self._encoder.transform(y)
            self._clf.partial_fit(X, y, classes=list(set(classes)))
        else:
             X = self._vectorizer.fit_transform(X)
             y = self._encoder.fit_transform(y)
             self._clf.fit(X, y)

        return self._clf

据我所知，这并没有太大问题，但我们确实需要更多关于您如何在此处使用它的背景信息。
挑剔：我觉得如果你把 classes 变量作为类属性会更清楚，因为这个变量对于每个 partial_fit 调用都需要相同。
如果您将不同的值传递给构造函数 classes 参数，您可能会做错事。

可以帮助我们帮助您的更多信息：

X.shape、y.shape 的打印。
上下文：您如何使用您提供的代码？？
_vectorizer、_encoder 你在用什么？您最终使用的是什么分类器？

【讨论】：

我使用的是早期代码 MySklearnClassifier，我没有时间测试我的第二个，很快就会更新
经过多次尝试，通过考虑第一次调用，我能够使以下代码正常工作，但我假设分类器腌制文件的大小在每次迭代后都会增加，但我得到的大小相同每个批次的 pkl 文件，这是不可能的：，更新了第三个版本，使用多项式 NB
拥有一个用于训练模型和执行预测的特定代码示例仍然很有用。您仍然收到错误吗？至于泡菜大小，这是预期的行为：考虑文件中存储的内容。它不存储数据，只存储进行预测所需的系数。系数的数量取决于特征的数量和类的数量，但不取决于样本的数量。您可以尝试进行预测和每一步，并在保留数据集上打印错误，以查看您的模型是否按预期发展。
是的，我能够基于上面发布的第三个版本运行，我转储了每个 partialfit 函数调用结果，每个文件大约 12 MB，但不使用 partial fit 它是 85mb。
partial_fit 和 fit 的输出与测试数据完全不匹配

【解决方案2】：

这里的问题，我相信，可以在错误

中看到

ValueError: operands could not be broadcast together with shapes (2000,11430) (2000,10728) (2000,11430)

注意（2000,11430）（2000， 10728 ）（2000,11430），您可以提供具有不同功能数量的数据集，因此它无法确定以来的功能在第二组中是不同的，这给出了错误。它只显示错误，并且不会崩溃，因为错误很可能捕获在try catch块中。

您可能不想为partial_fit函数提供不同的功能集（属性）。您的算法仍然是因为它剩下的两个粗克上它很紧身，但第二个粗克很可能被忽略。

【讨论】：

我在矢量化之前检查了该占据组，它们的大小 span>
什么是print X.shape给你partial_fit？ span>

1。 RuntimeWarning

2。类先验

3。你的错误

4。您的“早期”解决方案

1。 `RuntimeWarning`