【发布时间】:2018-07-17 16:21:19
【问题描述】:
我知道这是一个非常基本的问题,但我在正确格式化元组方面有点挣扎。 我有一个 csv 文件,其标题是:
id x1 x2 x3 y1 y2
1 23 45 31 2 5
2 34 5 21 3 12
3 234 4 26 4 20
....
我正在构建一个多目标线性回归模型(我将使用来自 scikit learn 的 MultiOutputRegressor),所以我想将数据拆分为 X(然后将其拆分为训练集和测试集)和目标 Y。我导入像这样的csv:
with open('data.csv', newline='') as csvfile:
data = list(csv.reader(csvfile))
所以我得到了一个数组列表。但是如何访问数组中的元素呢?我的 X 集将是字段 x1、x2、x3 的所有值(然后我会选择一些 X 行来构建 Xtrain);我的 Y 集将是 y1,y2 的所有值。 我的最终目标是这样的:
X= [[23 45 31]
[34 5 21]
[234 4 26]
...]
Y=[[2,5]
[3,12]
[4,20]
...]
我怎样才能做到这一点? 或者:如何将我所说的结构化数据分组为稀疏矩阵,这是 scikit learn 的线性回归函数的有效参数?
【问题讨论】:
-
你看过 pandas(和 numpy)吗?
标签: python arrays numpy scikit-learn linear-regression