计算重复变量的平均数

Question

我有一个唯一患者 ID 数据集（约 250,000 个），其中包括重复数据。我想计算每个唯一 RID 出现的平均次数。我只能弄清楚如何使用以下方法计算每个唯一 RID 出现的实际次数：

proc freq data=patients;
tables rid;
run;

IE：我不想知道
RID 1 出现 2
RID 2 出现 4
RID 3 出现 3

我想知道一个唯一的 RID 出现的平均数是 3。

感谢您的帮助！

Answer 1

从数学上讲，这是记录总数除以 RID 的唯一数量。

您可以将 SQL 与 COUNT DISTINCT 和 COUNT 结合使用，一步完成。

Answer 2

你可以通过 PROC SQL

Select count(*)/count(distinct rid)
from patients;

Counting average number of repeated variables