【发布时间】:2018-04-21 11:41:36
【问题描述】:
我是一个数据科学小白和我工作的Kaggle Titanic dataset。我在它运行的Logistic回归预测的测试数据集的乘客是否存活或死亡。 P>
我清洁训练和测试数据并且两个运行在训练数据的Logistic回归拟合。都很好。
train = pd.read_csv('train.csv')
X_train = train.drop('Survived',axis=1)
y_train = train['Survived']
from sklearn.linear_model import LogisticRegression
logmodel = LogisticRegression()
logmodel.fit(X_train,y_train)
然后,我的测试数据为这样运行预测模型:
test = pd.read_csv('test.csv')
predictions = logmodel.predict(test)
我然后尝试打印混淆矩阵:
from sklearn.metrics import classification_report, confusion_matrix
print(confusion_matrix(test,predictions))
我得到一个错误,指出: P>
ValueError:分类指标无法处理混合 连续多输出和二进制目标 P>
这是什么意思,我该如何解决?
我看到一些潜在的问题是: P>
- 我做的东西超级愚蠢和错误的测试数据预测模型。
- 为特征值“年龄”和“食物”(成本的乘客的 票)是浮筒,而其余的是整数。 LI>
我哪里错了?感谢您的帮助!
【问题讨论】:
-
检查
confusion_matrix参数:scikit-learn.org/stable/modules/generated/…,你应该通过两个阵列,而不是整个测试数据集跨度>
标签: python machine-learning scikit-learn classification logistic-regression