Pandas OneHotEncoder.fit(dataframe) 返回 ValueError: invalid literal for long() with base 10答案

【问题标题】：Pandas OneHotEncoder.fit(dataframe) returns ValueError: invalid literal for long() with base 10Pandas OneHotEncoder.fit(dataframe) 返回 ValueError: invalid literal for long() with base 10
【发布时间】：2015-02-21 09:38:26
【问题描述】：

我正在尝试将 Pandas 数据帧转换为 NumPy 数组，以使用 Sklearn 创建模型。我将在这里简化问题。

>>> mydf.head(10)
IdVisita
445                                  latam
446                                    NaN
447                                 grados
448                                 grados
449                                eventos
450                                eventos
451         Reescribe-medios-clases-online
454                             postgrados
455                             postgrados
456                             postgrados
Name: cat1, dtype: object

>>> from sklearn import preprocessing
>>> enc = preprocessing.OneHotEncoder()
>>> enc.fit(mydf)

追溯：

ValueError                                Traceback (most recent call last)
<ipython-input-74-f581ab15cbed> in <module>()
      2 mydf.head(10)
      3 enc = preprocessing.OneHotEncoder()
----> 4 enc.fit(mydf)

/home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/sklearn/preprocessing/data.pyc in fit(self, X, y)
    996         self
    997         """
--> 998         self.fit_transform(X)
    999         return self
   1000 

/home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/sklearn/preprocessing/data.pyc in fit_transform(self, X, y)
   1052         """
   1053         return _transform_selected(X, self._fit_transform,
-> 1054                                    self.categorical_features, copy=True)
   1055 
   1056     def _transform(self, X):

/home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/sklearn/preprocessing/data.pyc in _transform_selected(X, transform, selected, copy)
    870     """
    871     if selected == "all":
--> 872         return transform(X)
    873 
    874     X = atleast2d_or_csc(X, copy=copy)

/home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/sklearn/preprocessing/data.pyc in _fit_transform(self, X)
   1001     def _fit_transform(self, X):
   1002         """Assumes X contains only categorical features."""
-> 1003         X = check_arrays(X, sparse_format='dense', dtype=np.int)[0]
   1004         if np.any(X < 0):
   1005             raise ValueError("X needs to contain only non-negative integers.")

/home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/sklearn/utils/validation.pyc in check_arrays(*arrays, **options)
    279                     array = np.ascontiguousarray(array, dtype=dtype)
    280                 else:
--> 281                     array = np.asarray(array, dtype=dtype)
    282                 if not allow_nans:
    283                     _assert_all_finite(array)

/home/dukebody/Apps/Anaconda/lib/python2.7/site-packages/numpy/core/numeric.pyc in asarray(a, dtype, order)
    460 
    461     """
--> 462     return array(a, dtype, copy=False, order=order)
    463 
    464 def asanyarray(a, dtype=None, order=None):

ValueError: invalid literal for long() with base 10: 'postgrados'

注意IdVisita 是这里的索引，数字可能不都是连续的。

有什么线索吗？

【问题讨论】：

您只有一个名为“cat1”的列吗？请尝试以下操作：enc.fit(mydf.cat1.values)
从docs OneHotEncoder 对整数数组进行编码，您是否只想对 IdVista 列进行编码？这里的问题是这是你的索引，你只有一个名为'cat1'的列，它是一个字符串，你能澄清一下
对！ OneHotEncoder 编码一个整数数组。我现在意识到，如果我想获得编码，我需要先通过 LabelEncoder，然后是 OneHotEncoder。或者直接使用 DictVectorizer。请发布，以便我接受答案！

标签： python numpy pandas scikit-learn

【解决方案1】：

更简单的方法是使用DictVectorizer，它在同一步骤中转换为整数以及OneHotEncoding。

将它与DictVectorizer(sparse=False) 参数一起使用允许在fit_transform 之后获得DataFrame 以继续使用Pandas。

【讨论】：

Re：“DictVectorizer，它可以转换为整数以及 OneHotEncoding”......这通常是不正确的。根据文档：“当特征值是字符串类型时，此转换器只会进行二进制 one-hot 编码。如果分类特征表示为 int 等数值，则可以在 DictVectorizer 后跟 OneHotEncoder 完成二进制 one-hot 编码。” scikit-learn.org/stable/modules/generated/…

【解决方案2】：

您的错误是您正在调用文档中的 OneHotEncoder

这个转换器的输入应该是一个整数矩阵

但是你的 df 有一个单列“cat1”，它的 dtype object 实际上是一个字符串。

你应该使用LabelEcnoder:

In [13]:

le = preprocessing.LabelEncoder()
le.fit(df.dropna().values)
le.classes_
C:\WinPython-64bit-3.3.3.2\python-3.3.3.amd64\lib\site-packages\sklearn\preprocessing\label.py:108: DataConversionWarning: A column-vector y was passed when a 1d array was expected. Please change the shape of y to (n_samples, ), for example using ravel().
  y = column_or_1d(y, warn=True)
Out[13]:
array(['Reescribe-medios-clases-online', 'eventos', 'grados', 'latam',
       'postgrados'], dtype=object)

请注意，我必须删除 NaN 行，因为这将引入无法用于排序的混合 dtype，例如float > str 将不起作用

【讨论】：

但是，当您的分类数据没有顺序时，这是一个问题。通过使用 LabelEncoder，您可以确定可能导致次优建模结果的顺序。