【发布时间】:2012-11-09 03:21:03
【问题描述】:
我无法使用来自scipy.cluster 的vq.whiten 来规范化我的数据。我传入了一个 numpy 数组,其中缺失的特征值用每个特征的平均值填充。
卡住的那一行是:
data = scipy.cluster.vq.whiten(self.imputed)
这是我用来替换缺失数据的代码。
imputed = np.array([self.masked[:,i].filled(self.masked[:,i].mean())
for i in range(np.shape(self.masked)[1])])
self.imputed = np.transpose(imputed)
我确信这部分也有更好的方法,除了它似乎破坏了我的代码这一事实。这似乎是一种丑陋的方式,这通常意味着 Python 有更好的方式。
我尝试减少发送到 whiten 的数组的数量,但无论我在 Traceback 中得到什么。
Traceback (most recent call last):
File "C:\Users\jamie.bull\workspace\Metadata\src\draft_workflow.py", line 87, in <module>
dataset.cluster()
File "C:\Users\jamie.bull\workspace\Metadata\src\draft_workflow.py", line 59, in cluster
data = scipy.cluster.vq.whiten(self.imputed)
File "C:\Enthought\Python27\lib\site-packages\scipy\cluster\vq.py", line 131, in whiten
std_dev = std(obs, axis=0)
File "C:\Enthought\Python27\lib\site-packages\numpy\core\fromnumeric.py", line 2467, in std
return std(axis, dtype, out, ddof)
AttributeError: sqrt
集群在相同的数据集上运行良好,没有任何丢失的数据,所以我不知道下一步该尝试什么。
编辑:
我尝试使用以下方法打印出imputed 中每个项目的类型,用于完整数据集和缺少数据的数据集:
for item in imputed:
print type(item)
两者之间的区别在于,当没有调用均值替换和转置的版本时,每一行都有一个numpy.ndarray,而被均值替换的版本每列都有一个。
【问题讨论】:
-
你能显示更多的回溯吗?
-
已编辑以显示完整的 Traceback。我很确定问题在于我如何创建
imputed。我推出了一个 1D numpy 数组的数组,而我想要的是一个 2D numpy 数组。 -
是的,您正在设置推算为一维数组,这将打破
vq.whiten。我建议摆脱列表理解 ([a for b in c]) 并只做一个循环来替换您丢失的数据。 -
已修复。显然我只需要将 dtype 设置为浮动。感谢您的帮助,@tiago
标签: python numpy scipy cluster-analysis