在不删除 *SAS* 的情况下计算变量中的重复观察值答案

【问题标题】：Counting duplicate observations in a variable without deleting *SAS*在不删除 *SAS* 的情况下计算变量中的重复观察值
【发布时间】：2015-02-11 14:42:00
【问题描述】：

我有一个年度患者索赔数据集，其中每个患者可以代表不止一次，因为他每年可以有多个索赔（即：如果女性一年生育两次，则可以有两个索赔） .

我想计算每个患者 ID 的重复次数，但我不想消除重复项或将它们从数据集中取出。是否有不同的代码来执行此操作？

谢谢！！

【问题讨论】：

您能描述一下您的预期结果吗？有很多方法可以做到这一点。您只是想要一个带有频率的报告，还是想要添加一个变量来计算患者 ID 的出现次数？另外，您可以发布到目前为止您尝试过的任何代码吗？

标签： duplicates sas frequency

【解决方案1】：

data work.claims_data;
input patient_id $ claim_number $;
datalines;
P1 C1
P1 C2
P1 C3
;
run;

proc sql;
select patient_id,count(distinct claim_number) - 1 as cnt
from claims_data
group by patient_id
having cnt > 0;
quit;

工作：上面的 SQL 程序将为患者提供来自输入数据集的不同索赔编号的明智计数。如果我们从每个计数中减去 1，将得到每个患者的重复索赔计数。

输出：

Patient_ID    cnt
        P1      2

【讨论】：

Count-1 变量名称为 cnt 可能会误导未来的用户。