【发布时间】:2020-06-04 08:12:24
【问题描述】:
似乎有许多降低维度的技术(pca、svd 等)以逃避维度的诅咒。但是你怎么知道你的数据集实际上存在高维问题?是否有最佳实践,例如可视化,或者甚至可以使用 KNN 来找出答案?
我有一个包含 99 个特征和 1 个连续标签(价格)和 30 000 个实例的数据集。
【问题讨论】:
标签: python machine-learning dimensionality-reduction
似乎有许多降低维度的技术(pca、svd 等)以逃避维度的诅咒。但是你怎么知道你的数据集实际上存在高维问题?是否有最佳实践,例如可视化,或者甚至可以使用 KNN 来找出答案?
我有一个包含 99 个特征和 1 个连续标签(价格)和 30 000 个实例的数据集。
【问题讨论】:
标签: python machine-learning dimensionality-reduction
维度诅咒是指决定特征维度与数据大小之间关系的问题。有人指出,随着您的特征大小/维度的增长,为成功建模您的问题所需的数据量也将呈指数级增长。
当您的数据呈指数增长时,问题就真正出现了。因为您必须考虑如何正确处理它(需要存储/计算能力)。 所以我们通常会尝试找出问题所需的正确尺寸(可能使用交叉验证),然后只选择那些特征。另外,请记住,使用大量特征会带来很高的过拟合风险。
您可以使用特征选择或特征提取进行降维。LASSO 可用于特征选择或 PCA、LDA 进行特征提取。
【讨论】: