【发布时间】:2020-11-17 05:47:14
【问题描述】:
我正在对主要包含分类特征的数据集进行关联分析,并且我正在使用 Cramers 的 V 和 Theils U 统计度量来展示关联指标。
我有 2 个与此相关的问题:
-
如果我的数据集中的某些列中存在一些缺失值,在计算 Cramers' V 和 theils u 指标时我应该如何处理它们。我应该用一些虚拟值替换缺失值吗?注意:我使用 python 的 dython 库来计算这两个指标。
dython.nominal.cramers_v(data[field1],data[field2]) 和 dython.nominal.theils_u(data[field1],data[field2])
-
如果我有一个包含日期时间值的列名,例如“任务创建日期”。如何将此字段作为关联分析的一部分? Cramers' V 和 Theils U 是否将日期值视为输入?还是需要一些转换?
任何帮助将不胜感激。
【问题讨论】:
标签: python data-science correlation static-analysis chi-squared