【发布时间】:2020-08-17 18:13:54
【问题描述】:
我有一组 3D 数组中的图像(尺寸索引 * 高度 * 宽度)。
x_train, x_test, y_train, y_test = train_test_split(X, yy, test_size=0.2, random_state=42, stratify=y)
print(x_train.shape, x_test.shape, y_train.shape, y_test.shape)
dtrain = xgb.DMatrix(data=x_train, label=y_train)
dtest = xgb.DMatrix(data=x_test)
我从 XGBoost DMatrix 输入中得到一个错误:
ValueError: ('Expecting 2 dimensional numpy.ndarray, got: ', (2164, 120, 431))
上面打印的数组的形状:
(2164, 120, 431) (542, 120, 431) (2164, 3) (542, 3)
我对如何重塑数据感到困惑。需要2164行*1列吗?
【问题讨论】:
-
您可能想查看其他类型的图像数据模型。不仅 XGBoost 的输入不能是 3D 的,而且它也不适合图像数据(简单的重塑可能也不会将您带到任何地方)。你可能想看看CNNs
-
感谢您的建议。我首先用 Keras 尝试了 CNN,但是我有一个小的不平衡数据集,所以结果不是很好。约 70% 的准确度。有人建议 XGBoost 使用这种类型的数据集可能会产生更好的结果。所以我试试看。像下面的用户 A Kareem 建议的那样,图像的扁平化是问题吗?
-
这真的不是正确的工具。如果使用 CNN 没有产生好的结果,你可能想看看为什么会这样,而不是尝试经典的 ML 分类器。基于树的算法无法从图像数据中学到很多东西。您需要学习结构和有意义的 2D 特征的模型。 CNN 通过对图像应用过滤器来做到这一点。当涉及到图像数据时,它们是常用的方法
-
感谢您的建议,非常感谢。我再看看 CNN。
标签: python numpy xgboost numpy-ndarray