基于分布对具有多列的数据进行规范化

【问题标题】：Normalizing data with many columns based on distribution基于分布对具有多列的数据进行规范化
【发布时间】：2021-10-28 00:22:23
【问题描述】：

我一直在研究如何正确地为聚类准备数据，我遇到了this tutorial，它解释了你不能只是随机地对每一列进行归一化，因为对幂律分布进行归一化不会产生正确的转换 (在这种情况下您应该使用对数转换）。

我正在尝试转换具有 200 多列的数据框（在准备和删除大部分为空的和自相关的列之后）。所以我的问题是，有没有一种方法可以自动检查每个特征的分布，然后进行最合适的转换（高斯发行版的归一化，幂律发行版的对数转换，使用“无法识别”发行版的分位数等）自动？或者这是我必须为所有这些列手动做的事情？谢谢！

【问题讨论】：

有一个python包。您可以查看fitter 以确定最合适的分布。

标签： python pandas normalization distribution

【解决方案1】：

如果您确定您的数据只有两种分布（正态分布和指数分布），那么您可以使用偏度统计来识别正态分布和非正态分布。

否则，请查看这篇文章：

https://towardsdatascience.com/identify-your-datas-distribution-d76062fc0802

【讨论】：

我不确定，我可以在 200 多列中有任意数量的分布，这就是为什么我想自动化这个：D
您需要对列进行迭代，并使用带有逻辑运算符的测试统计结果来转换它们。例如，如果法线更适合，那么数据会自动标准化。
谢谢。不幸的是，我没有 TDS 的付费账户，所以我无法阅读这篇文章（invoognito 窗口也不起作用......）
也许这会有所帮助？ stackoverflow.com/questions/37487830/…

猜你喜欢

2017-08-06
2019-01-01
2013-11-08
2019-11-26
2020-07-31
2013-01-22
1970-01-01
2018-12-12
2021-09-05

相关资源

下载 2022-12-10
下载 2021-06-23
下载 2023-01-09
下载 2021-06-06

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode