【发布时间】:2020-11-19 04:04:16
【问题描述】:
我在尝试拟合模型时遇到了一些问题。当我尝试使用 LogisticRegression、朴素贝叶斯或 svm 模型时,就会发生这种情况。但是当我使用随机森林回归或决策树时,我会得到结果。
错误提示:
ValueError: y 应该是一维数组,得到一个形状为 (20799, 100) 的数组 而是。
解决方案是在我拟合模型时使用 y_train.ravel()。但话又说回来,出现以下错误:
发现样本数量不一致的输入变量:[14559, 1455900]
这是我的代码:
import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
df=pd.read_csv('../input/filteredbymany.csv',low_memory=False,usecols=['county','crashalcoh','drvrsex','developmen','lightcond','drvrvehtyp','drvrage','pedage','city','crashloc','crashtype','pedpos'])
df.dropna(inplace=True)
dummies= pd.get_dummies(df)
merged=pd.concat([df,dummies],axis='columns')
X = merged
X = X.drop(['county','crashalcoh','city','developmen','drvrage','drvrsex','drvrvehtyp','lightcond','pedage','crashloc','crashtype','pedpos'],axis='columns')
y = X.loc[:, X.columns.str.startswith('county')]
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3,random_state=0)
model = LogisticRegression()
model.fit(X_train,y_train.values.ravel())
model.predict(X_test)
我已经为此苦苦挣扎了大约 80 个小时左右。请帮忙。
【问题讨论】:
标签: python scikit-learn regression prediction