Openrefine - 由第二个或第三个候选者协调

Openrefine - reconcile by second or third candidate

使用reconcile服务时,我经常遇到这样的问题:最好的候选不是真的正确,最好的是第二或第三候选(而且它也有更好的分数),就像这样:

我怎样才能select批量正确?我有数千条记录,而且我遇到了很多这样的案例。我认为应该是某种方式,而不是一个一个地做。

例如说 "take the best candidate score, no matter what's its position".

编辑: 正如 所说,这可能是一个错误。同时可以创建两个数字方面。一个 cell.recon.candidates[1].score,另一个 cell.recon.candidates[2].score。与他们一起玩可以 select 第三名和第二名候选人的分数,以确保您获得得分最高的候选人。那就得一一对账了,不过是点一下的问题。

我会说这种行为首先是一个错误:候选人应该按分数递减排序。 reconciliation service API 没有指定服务应该 return 他们的候选人有任何特定的顺序,但这可能是无意的。

最快的解决方案是联系您正在使用的核对服务的 运行 人员,请他们通过降低他们一方的分数来对候选人进行排序。

这也表明 OpenRefine 本身的改进:OpenRefine 总是可以通过降低分数来对协调服务的结果进行排序。我打开了 a ticket about this.

更广泛地说,我同意可以改进当前根据特定标准匹配候选人的方法(但这可能需要重新设计协调系统的重要部分,这需要时间)。