如何在 scikit 中训练 svm 从 csv 文件中的训练数据中学习

【问题标题】：How to train svm in scikit learn from training data present in a csv file如何在 scikit 中训练 svm 从 csv 文件中的训练数据中学习
【发布时间】：2013-08-27 10:46:20
【问题描述】：

我有一个 CSV 文件中的训练数据，其第一个元素是结果，其余元素构成特征向量。

我使用 Weka 来根据这些训练数据训练和测试各种算法。但是现在我想多次使用经过训练的模型来测试不属于训练数据的特征向量，我不知道如何去做。我认为我可以通过使用 scikit-learn 来做到这一点。请提供一些帮助。

【问题讨论】：

标签： csv machine-learning weka svm scikit-learn

【解决方案1】：

只需对数据进行切片，例如分类问题：

>>> import numpy as np
>>> from sklearn.ensemble import ExtraTreesClassifier

>>> data_train = np.loadtxt('data_train.csv', delimiter=',')
>>> X = data_train[:, 1:]
>>> y = data_train[:, 0].astype(np.int)
>>> clf = ExtraTreesClassifier(n_estimators=100).fit(X, y)

然后对第一列没有目标标签的测试数据进行预测：

>>> data_test = np.loadtxt('data_test.csv', delimiter=',')
>>> print(clf.predict(data_test))

【讨论】：

我把 1 改成了 0。否则，+1。