【发布时间】:2022-01-24 02:41:49
【问题描述】:
我有一个包含 2 列的 csv 文件。一列有字符串毒性 cmets,另一列有浮动毒性值 0 到 1。(当毒性值接近 1 时,cmets 毒性更大)。
我想进行线性回归以正确预测有毒值的数量。
为此,我首先将“注释”(字符串)列转换为整数:
train['comment']= pd.to_numeric(train['comment'], errors='coerce').fillna(0).astype(np.int64)
然后,我为线性回归编写了代码:
linX = train.iloc[:, 0].values.reshape(-1,1)
linY = train.iloc[:, 1].values.reshape(-1,1)
lr = LinearRegression()
lr.fit(linX, linY)
Y_pred = lr.predict(linX)
plt.scatter(linX,linY)
plt.plot(linX,Y_pred, color='red')
这行得通,但我认为我做得不对。因为那个回归表对我来说似乎不正确:
我无法解决问题。我的问题是;
我的线性回归代码是否正确?
我应该将“毒性”列与 0 值分开吗?
【问题讨论】:
标签: python pandas dataframe linear-regression