计算文本挖掘结果的精度和召回率

Calculte precision and recall for text mining result

我正在做一个项目,使用文本挖掘找出疾病相关基因。我为此使用了 1000 篇文章。我得到了大约 129 个基因名称。实际数据集包含大约 1000 个条目。现在我想计算我的方法的精度和召回率。当我进行比较时,在 129 个基因中,发现 72 个是正确的。所以 精度 = 72/129。 这是正确的吗? 现在我该如何计算召回率?请帮助

Wikipedia Article on Precision and Recall 可能会有所帮助。 定义是:

Precision: tp / (tp+fp)
Recall: tp / (tp + fn)

其中 tp 是真阳性(与疾病相关的基因,你发现了它们),fp 是假阳性(你发现但实际上与疾病无关的基因)疾病)和 fn 是假阴性(实际上与疾病相关但你没有发现它们的基因)。

我不太确定您发布的数字代表什么。真正与疾病相关的基因你知道吗?

您很可能已经计算出准确度:

Accuracy = (tp + fp) / (Total Number)

主要问题是我正在考虑的文章可能不包含所有最初列出的基因名称,因为它是一个小数据集。所以在计算召回率时,我可以将原始基因数据库与文章进行比较,而不是将分母视为1000,以找出文献中存在多少原始相关基因。即,如果有 1000 个相关基因,我将从 1000 个中检查我正在考虑的数据集中有多少个。如果是 300,我会将分母设置为 300 而不是 1000。这样可以召回。