【问题标题】:One-Hot Encode & CorrelationOne-Hot 编码和相关性
【发布时间】:2020-12-13 00:42:07
【问题描述】:

我对一列“postcode”进行了一次性编码,我想看看它与标签编码为:(mass customer = 0, affluent customer = 1 and high net worth customer = 2)的财富段之间的相关性。

我想看看邮政编码和客户的财富之间是否存在相关性。问题是,我有很多列邮政编码,因为我有一个热编码。命名约定为 postcode_XXXX(XXXX 为 4 位数字)

我可以写什么来只找到这两个变量之间的相关性?我在数据框中还有 100 多个其他列,所以我不想简单地使用 df.corr() 方法。

【问题讨论】:

  • 相关性意味着 2 个变量的共同运动。我认为您不会看到邮政编码和财富之间的这种关系。你可以把你的拉链变成地理位置,看看有些地方是否比其他地方更富有。或者只是按照居民的总财富对拉链进行分类。

标签: python pandas correlation one-hot-encoding label-encoding


【解决方案1】:

如果您只想要每个邮政编码列与财富段列的相关值,您可以简单地迭代包含邮政编码的列名,在每次迭代中过滤数据框并在过滤后的数据框上使用df.corr()

例如:

cols = [c for c in df.columns if c.startswith('postcode_')]

for col in cols:
    filter_df = df[[col, 'wealth_segment']]
    print(filter_df.corr())

【讨论】:

  • 如果我对另一列也进行了热编码(wealth_segment),我该怎么做?
猜你喜欢
  • 2017-07-02
  • 2018-03-24
  • 1970-01-01
  • 2017-06-21
  • 2021-04-14
  • 1970-01-01
  • 2017-10-23
  • 2021-11-02
  • 2020-09-18
相关资源
最近更新 更多