【发布时间】:2017-10-14 06:47:07
【问题描述】:
我有一个非常庞大的训练数据集,大约 15gb,我无法将它放入我的计算机内存中来训练任何类型的回归模型。数据集的每个样本都是一个 4d 矩阵。您可以将样本展平为向量,但该向量的维数太大了,有没有什么方法可以减少我的样本的维数来训练线性回归模型?
【问题讨论】:
标签: python regression dimensionality-reduction
我有一个非常庞大的训练数据集,大约 15gb,我无法将它放入我的计算机内存中来训练任何类型的回归模型。数据集的每个样本都是一个 4d 矩阵。您可以将样本展平为向量,但该向量的维数太大了,有没有什么方法可以减少我的样本的维数来训练线性回归模型?
【问题讨论】:
标签: python regression dimensionality-reduction
我建议尝试以下测试,因为您使用的是线性模型。这是朝着最终解决方案迈出的一步,应该让您了解最终解决方案的外观。
过滤数据,使每个维度都有最大值、最小值和中值。这应该会产生一个计算上合理大小的工作数据集,并且对该较小的数据集进行回归将使您对最终解决方案参数有一些可行的想法。
【讨论】: