【问题标题】:Normalizing data with many columns based on distribution基于分布对具有多列的数据进行规范化
【发布时间】:2021-10-28 00:22:23
【问题描述】:

我一直在研究如何正确地为聚类准备数据,我遇到了this tutorial,它解释了你不能只是随机地对每一列进行归一化,因为对幂律分布进行归一化不会产生正确的转换 (在这种情况下您应该使用对数转换)。

我正在尝试转换具有 200 多列的数据框(在准备和删除大部分为空的和自相关的列之后)。所以我的问题是,有没有一种方法可以自动检查每个特征的分布,然后进行最合适的转换(高斯发行版的归一化,幂律发行版的对数转换,使用“无法识别”发行版的分位数等)自动?或者这是我必须为所有这些列手动做的事情?谢谢!

【问题讨论】:

  • 有一个python包。您可以查看fitter 以确定最合适的分布。

标签: python pandas normalization distribution


【解决方案1】:

如果您确定您的数据只有两种分布(正态分布和指数分布),那么您可以使用偏度统计来识别正态分布和非正态分布。

否则,请查看这篇文章:

https://towardsdatascience.com/identify-your-datas-distribution-d76062fc0802

【讨论】:

  • 我不确定,我可以在 200 多列中有任意数量的分布,这就是为什么我想自动化这个:D
  • 您需要对列进行迭代,并使用带有逻辑运算符的测试统计结果来转换它们。例如,如果法线更适合,那么数据会自动标准化。
  • 谢谢。不幸的是,我没有 TDS 的付费账户,所以我无法阅读这篇文章(invoognito 窗口也不起作用......)
  • 也许这会有所帮助? stackoverflow.com/questions/37487830/…
猜你喜欢
  • 2017-08-06
  • 2019-01-01
  • 2013-11-08
  • 2019-11-26
  • 2020-07-31
  • 2013-01-22
  • 1970-01-01
  • 2018-12-12
  • 2021-09-05
相关资源
最近更新 更多