【问题标题】:Inconsistent numbers of samples error from PythonPython中的样本数量不一致错误
【发布时间】:2018-12-01 06:03:16
【问题描述】:

我正在 Spyder IDE 上参与 Titanic 竞赛。代码几乎没有完成,但我一步一步地做(这是我第一次构建学习模型)。现在,我在尝试运行我的代码时在日志中收到 Found input variables with inconsistent numbers of samples: [891, 183] 错误。这是我目前所拥有的:

import pandas as pd
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error

train_path = "C:\\Users\\Omar\\Downloads\\Titanic Data\\train.csv"
train_data = pd.read_csv(train_path)
columns_of_interest = ['Survived','Pclass', 'Sex', 'Age']
filtered_titanic_data = train_data.dropna(axis=0)

x = train_data[columns_of_interest]
y = filtered_titanic_data.Survived

train_x, val_x, train_y, val_y = train_test_split(x, y, random_state=0)

titanic_model = DecisionTreeRegressor()
titanic_model.fit(train_x, train_y)

val_predictions = titanic_model.predict(val_x)

print(filtered_titanic_data)

Idk 是否来自 excel 文件或参数。如果这是一个简单的问题,我很抱歉。我无法实施其他人的解决方案。

【问题讨论】:

    标签: python pandas machine-learning scikit-learn kaggle


    【解决方案1】:

    错误是因为您从过滤的数据中获取标签并从未过滤的数据中获取x

    更改以下行

    x = train_data[columns_of_interest]
    

    x = filtered_titanic_data[columns_of_interest]
    

    【讨论】:

      猜你喜欢
      • 2019-04-06
      • 2020-12-05
      • 2016-10-29
      • 2019-12-31
      • 2022-08-14
      • 2018-04-13
      • 2020-02-24
      • 2018-08-24
      相关资源
      最近更新 更多