【发布时间】:2021-10-28 00:22:23
【问题描述】:
我一直在研究如何正确地为聚类准备数据,我遇到了this tutorial,它解释了你不能只是随机地对每一列进行归一化,因为对幂律分布进行归一化不会产生正确的转换 (在这种情况下您应该使用对数转换)。
我正在尝试转换具有 200 多列的数据框(在准备和删除大部分为空的和自相关的列之后)。所以我的问题是,有没有一种方法可以自动检查每个特征的分布,然后进行最合适的转换(高斯发行版的归一化,幂律发行版的对数转换,使用“无法识别”发行版的分位数等)自动?或者这是我必须为所有这些列手动做的事情?谢谢!
【问题讨论】:
-
有一个python包。您可以查看
fitter以确定最合适的分布。
标签: python pandas normalization distribution