在 NLP 命名实体识别中计算实体的置信度分数

Calculating confidence score for Entity in NLP Named-entity recognition

我正在研究从文档 (pdf) 中提取命名实体。每个 pdf 包含一组实体(近 16 种不同类型的实体)

以下是我构建 NLP 和 ML 模型的步骤:

到目前为止一切顺利。但问题在下一步。 :(

使用 SOFTMAX 对输入进行分类的神经网络模型。从这个模型得到每个词的分数。

但我的问题是,我的实体至少包含 3 个单词。我如何计算生成的实体的置信度分数。

现在我正在使用 P(entity) = P(w1)*P(w2)*(w3) 如果实体有三个词。

请帮助我。这种方法不会一直有意义。

假设,如果模型仅预测实体中的两个词,那么实体置信度将为 P(entity) = P(w1)*P(w2)

如果模型只预测实体中的一个词,则 P(entity) = P(w1)。 :(

为什么不是 P(entity) = P(w1)+P(w2)+P(w3) ? 如果您需要一个归一化数字 (0-1) 并假设 P(w) 的范围为 0-1,则: P(entity) = (P(w1)+P(w2)+P(w3)) / 3

为了获得更好的分数,您应该计算每个单词的信息量。一个常用词应该贡献较少:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-6-S1-S21

Stanford NLP 工具包使用 min(Pi) 作为 P(entity)。从我的角度来看,从数​​学的角度来看,两者都不合理。