NLP:地名词典是骗子吗

NLP : Is Gazetteer a cheat

在 NLP 中有一个 Gazetteer 的概念,它对于创建注释非常有用。据我了解,

A gazetteer consists of a set of lists containing names of entities such as cities, organisations, days of the week, etc. These lists are used to find occurrences of these names in text, e.g. for the task of named entity recognition.

所以它本质上是一个查找。这不是骗子吗?如果我们使用 Gazetteer 来检测命名实体,那么 Natural Language Processing 就不会发生太多事情。理想情况下,我想使用 NLP 技术检测命名实体。否则它怎么比正则表达式模式匹配器更好。

这有意义吗?

取决于您如何 built/use 您的地名词典。如果你在一个封闭的域中进行实验并且你自定义选择了你的地名词典,那么是的,你在作弊。 如果您正在使用一些公开可用的地名词典并在大型数据集上进行实验,或者在您无法控制输入的野外应用程序中使用它,那么您就可以了。 我们发现自己处于类似的情况。我们对数据集进行分区并使用训练数据自动构建我们的地名词典。只要你报告了你的方法,你就不应该有作弊的感觉(让审稿人抱怨)。