开放式 nlp 模型的训练数据 - 结果 1 和模型与 finder 不兼容

Question

我目前在使用 opennlp 工具包训练新的 ner 模型时遇到了问题。我在网上找到了一个关于训练药物名称新模型的例子。用于训练的示例数据如下所示

<START:medicine> Augmentin-Duo <END> is a penicillin antibiotic that contains two medicines - <START:medicine> amoxicillin trihydrate <END> and <START:medicine> potassium clavulanate <END>.

我正在尝试训练一个模型来识别物种名称，并设法创建了一个包含大约 35,000 个句子的样本数据集。每个句子至少包含一个我根据药物样本数据标记的物种名称。看起来像这样

A flatfish is a member of the order <START:sname> Pleuronectiformes </END> of ray-finned demersal fishes, also called the Heterosomata, sometimes classified as a suborder of Perciformes.

现在是有趣的部分。如果我开始训练，我会收到此消息

Number of Outcomes: 1

Exception in thread "main" java.lang.IllegalArgumentException: Model not compatible with name finder!

出于“测试”目的，我在句子列表的开头复制了一个药物示例的句子，突然我得到“结果数：2”。

现在我不知道为什么我的样本被认为只有一个结果。每个物种名称在我的样本数据中是否只允许出现一次？还有什么问题？我是否必须在一个句子中标记至少 2 个物种名称？不知道为什么我的代码适用于药物样本数据而不适用于我的数据，希望有人能在这里帮助我。

提前致谢！！

Answer 1

这可能是因为您错误地标记了数据集。

你完成了 <START:sname> Pleuronectiformes </END> 而不是 <START:sname> Pleuronectiformes <END>

/ 可能是这样，请确保所有空格都正确，并且训练数据中每个句子都在一行中。

如果这不起作用，post 训练数据块。

开放式 nlp 模型的训练数据 - 结果 1 和模型与 finder 不兼容

Training data for open nlp model - Outcome 1 and model not compatible with finder

opennlp