【发布时间】:2015-04-04 17:24:32
【问题描述】:
我正在尝试评估多元线性回归模型。我有一个这样的数据集:
这个数据集有 157 行 * 54 列。
我需要从文章中预测 ground_truth 值。我将在 en_Amantadine 和 en_Common 之间添加我的多重线性模型 7 文章。
我有多元线性回归的代码:
from sklearn.linear_model import LinearRegression
X = [[6, 2], [8, 1], [10, 0], [14, 2], [18, 0]] // need to modify for my problem
y = [[7],[9],[13],[17.5], [18]] // need to modify
model = LinearRegression()
model.fit(X, y)
我的问题是,我无法从 DataFrame 中提取 X 和 y 变量的数据。在我的代码中 X 应该是:
X = [[4984, 94, 2837, 857, 356, 1678, 29901],
[4428, 101, 4245, 906, 477, 2313, 34176],
....
]
y = [[3.135999], [2.53356] ....]
我无法将 DataFrame 转换为这种类型的结构。 我怎样才能做到这一点 ?
感谢任何帮助。
【问题讨论】:
标签: python numpy pandas machine-learning