计算文本挖掘结果的精度和召回率

Question

我正在做一个项目，使用文本挖掘找出疾病相关基因。我为此使用了 1000 篇文章。我得到了大约 129 个基因名称。实际数据集包含大约 1000 个条目。现在我想计算我的方法的精度和召回率。当我进行比较时，在 129 个基因中，发现 72 个是正确的。所以精度 = 72/129。这是正确的吗？现在我该如何计算召回率？请帮助

Answer 1

Wikipedia Article on Precision and Recall 可能会有所帮助。定义是：

Precision: tp / (tp+fp)
Recall: tp / (tp + fn)

其中 tp 是真阳性（与疾病相关的基因，你发现了它们），fp 是假阳性（你发现但实际上与疾病无关的基因）疾病）和 fn 是假阴性（实际上与疾病相关但你没有发现它们的基因）。

我不太确定您发布的数字代表什么。真正与疾病相关的基因你知道吗？

您很可能已经计算出准确度：

Accuracy = (tp + fp) / (Total Number)

Answer 2

主要问题是我正在考虑的文章可能不包含所有最初列出的基因名称，因为它是一个小数据集。所以在计算召回率时，我可以将原始基因数据库与文章进行比较，而不是将分母视为1000，以找出文献中存在多少原始相关基因。即，如果有 1000 个相关基因，我将从 1000 个中检查我正在考虑的数据集中有多少个。如果是 300，我会将分母设置为 300 而不是 1000。这样可以召回。

计算文本挖掘结果的精度和召回率

Calculte precision and recall for text mining result

classification

machine-learning

precision-recall