【问题标题】:Classification report and Accuracy between two files两个文件之间的分类报告和准确性
【发布时间】:2020-12-18 02:16:34
【问题描述】:

我正在尝试在两个文件之间进行分类报告。两者具有相同的数据,但 test.csv 没有 Survived 列。问题在于分类报告应该在 y 测试中写什么,因为在测试文件中缺少“幸存者”

这是我的代码

import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

train = pd.read_csv('..../titanic/train.csv')
test = pd.read_csv('..../titanic/test.csv')
X = train.drop('Survived' , axis=1)
y = train['Survived']

logmodel = LogisticRegression()
logmodel.fit(X,y)
predictions = logmodel.predict(test)

rr = {'PassengerId':test['PassengerId'] , 'Survived' : predictions}
result = pd.DataFrame(rr)
print(classification_report('what sould i write',predictions))

为了准确性 如果我这样写

logmodel.score(X ,y)

0.797979797979798

这个答案是我预测的模型的准确性吗? 这是对还是错

【问题讨论】:

标签: python scikit-learn logistic-regression


【解决方案1】:

您在 kaggle 中没有测试数据集的答案 - 您应该将“train.csv”分成两部分,“train”和“test”并检查您自己的测试部分,而不是 kaggle 部分。

Kaggle test.csv 用于进行预测并将其上传到 kaggle 网站。不上传就无法知道正确答案。

【讨论】:

  • 这应该是对 OP 的评论而不是答案
  • 为什么不呢? SO有什么规定吗?
  • 嗨@IvanSalaryev 谢谢你很清楚,但我有一个问题,我怎么知道我预测的准确性是多少
  • 试试这个:predictions = logmodel.predict(train)print(classification_report(y, predictions))
  • 它不回答问题它对问题发表评论
猜你喜欢
  • 2019-02-15
  • 1970-01-01
  • 2011-09-05
  • 2014-11-24
  • 2019-11-14
  • 2013-01-29
  • 2018-11-07
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多