两个文件之间的分类报告和准确性答案

【问题标题】：Classification report and Accuracy between two files两个文件之间的分类报告和准确性
【发布时间】：2020-12-18 02:16:34
【问题描述】：

我正在尝试在两个文件之间进行分类报告。两者具有相同的数据，但 test.csv 没有 Survived 列。问题在于分类报告应该在 y 测试中写什么，因为在测试文件中缺少“幸存者”

这是我的代码

import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

train = pd.read_csv('..../titanic/train.csv')
test = pd.read_csv('..../titanic/test.csv')
X = train.drop('Survived' , axis=1)
y = train['Survived']

logmodel = LogisticRegression()
logmodel.fit(X,y)
predictions = logmodel.predict(test)

rr = {'PassengerId':test['PassengerId'] , 'Survived' : predictions}
result = pd.DataFrame(rr)
print(classification_report('what sould i write',predictions))

为了准确性如果我这样写

logmodel.score(X ,y)

0.797979797979798

这个答案是我预测的模型的准确性吗？这是对还是错

【问题讨论】：

that is correct
请看documentation

标签： python scikit-learn logistic-regression

【解决方案1】：

您在 kaggle 中没有测试数据集的答案 - 您应该将“train.csv”分成两部分，“train”和“test”并检查您自己的测试部分，而不是 kaggle 部分。

Kaggle test.csv 用于进行预测并将其上传到 kaggle 网站。不上传就无法知道正确答案。

【讨论】：

这应该是对 OP 的评论而不是答案
为什么不呢？ SO有什么规定吗？
嗨@IvanSalaryev 谢谢你很清楚，但我有一个问题，我怎么知道我预测的准确性是多少
试试这个：predictions = logmodel.predict(train) 和 print(classification_report(y, predictions))
它不回答问题它对问题发表评论