【发布时间】:2015-09-17 00:12:40
【问题描述】:
我不太熟悉 SAS 逻辑,也不知道我的任务应该使用哪些步骤。基本上我想计算唯一记录数和记录数之间的比率(唯一比率)以确定变量是离散的还是连续的。该数据集包含 700 多个变量和 5M 条记录,因此使用 proc freq 可能会崩溃。
这是我建议的步骤:
- 数据集中的样本 100000
- 计算样本中每一列的“唯一比率”
重复第 1 步和第 2 步 N 次,比如 50 次。我们将有最终的数据集,如:
Var_name Sample_Number Unique_ratio
Var_1 1 0.58
.... ..... .....
然后为每个变量计算所有 N 个样本的平均唯一比率。
我可以在 python 或 R 中轻松地做到这一点。但是将其转换为 SAS 是非常痛苦的。有哪位 SAS 专家能给我一些建议吗?
【问题讨论】:
-
变量是数字还是字符还是混合?
-
它是字符和数字的混合 :)
-
这里有用的页面。 sascommunity.org/wiki/Cardinality_Ratio。我想知道您是否有足够的内存用于哈希方法?您的连续变量会有数百万个不同的值,还是可能只有数千个?
标签: sas