【发布时间】:2015-06-17 13:15:50
【问题描述】:
我有一个数据框data,其中包含实际值和一些 NaN 值。我正在尝试使用随机投影执行局部敏感哈希,以将维度减少到 25 个组件,特别是使用sklearn.random_projection.GaussianRandomProjection 类。但是,当我运行时:
tx = random_projection.GaussianRandomProjection(n_components = 25)
data25 = tx.fit_transform(data)
我收到Input contains NaN, infinity or a value too large for dtype('float64')。有解决方法吗?我尝试将所有 NaN 值更改为我的数据集中从未存在的值,例如 -1。在这种情况下,我的输出有多有效?我不是局部敏感散列/随机投影理论背后的专家,因此任何见解也会有所帮助。谢谢。
【问题讨论】:
标签: pandas scikit-learn projection dimensionality-reduction locality-sensitive-hash