计算重复变量的平均数

Counting average number of repeated variables

我有一个唯一患者 ID 数据集(约 250,000 个),其中包括重复数据。我想计算每个唯一 RID 出现的平均次数。我只能弄清楚如何使用以下方法计算每个唯一 RID 出现的实际次数:

proc freq data=patients;
tables rid;
run;

IE:我不想知道
RID 1 出现 2
RID 2 出现 4
RID 3 出现 3

我想知道一个唯一的 RID 出现的平均数是 3。

感谢您的帮助!

从数学上讲,这是记录总数除以 RID 的唯一数量。

您可以将 SQL 与 COUNT DISTINCT 和 COUNT 结合使用,一步完成。

你可以通过 PROC SQL

Select count(*)/count(distinct rid)
from patients;