Python xgb：ValueError：“feature_names 不匹配”答案

【问题标题】：Python xgb: ValueError: "feature_names mismatch"Python xgb：ValueError：“feature_names 不匹配”
【发布时间】：2020-06-25 16:10:46
【问题描述】：

我正在尝试学习 XGBoost 的基础知识，并设计了一个脚本来拆分我在 Kaggle 上找到的有关中国冠状病毒爆发的一些数据。代码和模型有效，但由于某些原因，当我使用模型进行新预测时，我得到“ValueError：feature_names mismatch”。新的测试数据有一个包含 2 个值的二维数组，就像测试数据一样，但我仍然得到一个值错误。

train = df[['RegionCode','ProvinceCode']].astype(int)
test = df['infected'].astype(int)

X_test, X_train, y_test, y_train = train_test_split(train, test, test_size=0.2, random_state=42)

train = xgb.DMatrix(X_train, label=y_train)
test = xgb.DMatrix(X_test, label=y_test)

param = {
'max_depth':4,
'eta':0.3,
'num_class': 2}
epochs = 10

model = xgb.train(param, train, epochs)

上面的所有代码都有效，但下面的测试给了我错误：

testArray=np.array([[13, 67]])

test_individual = xgb.DMatrix(testArray)

print(model.predict(test_individual))

知道我做错了什么吗？

【问题讨论】：

您没有正确拆分数据，请通过我的answer 在另一个帖子中了解清楚。

标签： python machine-learning xgboost

【解决方案1】：

您似乎错过了使用 sklearn 的 train_test_split 函数的基础知识。

X_test, X_train, y_test, y_train = train_test_split(train, test, test_size=0.2, random_state=42)

上面的行期望 train 具有用于训练的所有特征，而 test 期望目标特征。

尝试先解决这个问题。

【讨论】：

但这不是我正在做的吗？我有 train = df[['RegionCode','ProvinceCode']].astype(int) 和 test = df['infected'].astype(int)。训练是我的特征，测试是目标。
哦！我刚刚又看了一遍。您需要在您正在使用的 testArray 中提供列名。这样就解决了。
谢谢！我不太明白您提供列名是什么意思？我为新的 X 值指定了 int，那么我应该在哪里输入列名呢？你能提供一个样本来说明你的意思吗？感谢您的宝贵时间。
创建一个数据框，其中包含一行 [13, 67] 和与火车中提供的相同列名，即 ['RegionCode','ProvinceCode'] ，然后尝试使用 predict 函数。希望有效