【发布时间】:2016-06-25 08:41:36
【问题描述】:
对于多类问题,我使用 Scikit-Learn。我发现很少有关于如何加载具有多个类的自定义数据集的示例。 sklearn.datasets.load_files 方法似乎不适合,因为文件需要存储多次。我现在有以下结构:
X => 带有特征列表的 Python 列表(以文本形式)。
y => 带有类列表的 Python 列表(以文本形式)。
如何将其转换为 Scikit-Learn 可以在分类器中使用的结构?
【问题讨论】:
-
您的数据集(或其子集)如何?转换后您想要的结果是什么?
-
(1) 加载到 sklearn 的数据集应该是数字形式,而不是字符串或数字以外的任何形式 (2) 分配给输出的列,具有单独的浮点数,如
0.0, 1.0,2.0, 3.0将有资格获得多类分类器。这有帮助吗?
标签: python dataset scikit-learn