【发布时间】:2014-03-15 13:48:07
【问题描述】:
如果我有一个包含很多列的文件,数据都是数字,我如何知道特定列是分类数据还是定量数据?这类问题有研究领域吗?如果不是,有哪些启发式方法可以用来确定?
我能想到的一些启发式方法:
可能是分类数据
- 对唯一值做个汇总,如果是some_threshold,则更有可能是分类数据。
- 如果数据高度集中(低标准)
- 如果唯一值是高度连续的,并且从 1 开始
- 如果列中的所有值都具有固定长度(可能是 ID/日期)
- 如果它在Benford's Law 处的 p 值非常小
- 如果它在结果列的卡方检验中的 p 值非常小
可能是定量数据
- 如果列有浮点数
- 如果列具有稀疏值
- 如果列有负值
其他
- 也许定量数据更可能靠近/靠近定量数据(反之亦然)
我正在使用 R,但问题不需要特定于 R。
【问题讨论】:
-
对所有列使用
unique。如果只有几个“级别”,它可能是一个分类变量。要立即执行此操作,请使用apply(cars,2,unique) -
是的,这是我的第一件商品。我的问题是:你如何定义“很少”,它应该基于数据集的相对数量(例如n的0.1%),还是应该像一个绝对数量(
-
不知道数据很难说...
标签: r machine-learning