【问题标题】:Speeding up pandas profiling analysis using check_correlation?使用 check_correlation 加速 pandas 分析?
【发布时间】:2020-02-06 11:28:53
【问题描述】:

使用 pandas 分析生成报告。数据集的大小非常大,以加快处理我试图关闭相关性,所以我使用了我看到的另一篇文章中的 check_correlations, ValueError:配置参数“check_correlation”不存在。那么我从使用这条线得到的问题是什么

a = prof.ProfileReport(df, title='Downloads', check_correlation=False)

产生了这个问题

ValueError:配置参数“check_correlation”不存在。

【问题讨论】:

  • prof = pandas_profiling ?

标签: python pandas pandas-profiling


【解决方案1】:

这种方式对我不起作用,我使用了:

a = prof.ProfileReport(df, title='Downloads', minimum=True)

【讨论】:

    【解决方案2】:

    由于他们已经更改了版本 2 的配置,您可以将其用作:

    import pandas_profiling
    
    profile = df.profile_report(check_correlation_pearson=False,
    correlations={'pearson': False,
    'spearman': False,
    'kendall': False,
    'phi_k': False,
    'cramers': False,
    'recoded': False})
    

    关闭相关性。但是,它仍然没有 1.4 版那么快。您还可以调查其他配置here

    【讨论】:

      【解决方案3】:

      请看这个 issue 在 pandas-profiling 项目中。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2021-12-02
        • 1970-01-01
        • 1970-01-01
        • 2016-04-24
        • 2013-04-29
        • 2017-03-11
        • 2020-07-31
        • 1970-01-01
        相关资源
        最近更新 更多