DBpedia Spotlight 的参数是什么意思?

What do the parameters of DBpedia Spotlight mean?

我有兴趣使用 DBpedia Spotlight。但是,我们需要为confidencesupport这两个参数插入一个值。这两个参数到底是什么意思?

我想识别文本中重要的、突出的 n-gram。在这种情况下,置信度和支持参数的通常建议是什么经验法则)?

当您要求 DBpedia Spotlight 注释文本(发现 entities/topics)时,它会搜索在 DBpedia 上具有 URI 的 n-grams(n-grams 是维基百科的标题)。那些 n-grams 被称为 DBpedia 资源。

支持:这是Resource Prominence参数,它可以帮助您忽略不重要或无意义的资源。当您为其设置值 X 时,这意味着 维基百科数量 in-links 小于 X 的资源将被忽​​略并且不会返回给您。

Confidence:这是Disambiguation Confidence参数,它是一个阈值,取值介于0和1之间。当你设置它的价值很高,你会得到更好、更值得信赖的注释,但你可能会失去一些正确的注释

根据您的用例选择这些(或任何其他)参数的值。

示例:

  • 如果您对您感兴趣的 n-grams 类型有一些测试集或黄金标准,您可以调整您的选择,直到获得满足您的黄金标准的足够好的结果。

  • 如果您只关心检索 top-N n-grams 以推断文本的主题,您可以调整参数选择高值以获得少数(大部分)正确 n-grams 并按置信度排序。

  • 如果您想获得尽可能多的n-grams并且您的任务不会因错误而受到影响或产生偏差,您可以设置较低的值。