有没有办法为 OpenNLP 获取 "original" 文本数据?
Is there a way to get the "original" text data for OpenNLP?
我知道之前有人问过这个问题 - 但答案并不令人满意(从某种意义上说,答案只是 link)。
所以我的问题是,有什么方法可以扩展现有的 openNLP 模型吗?我已经了解 DBPedia/Wikipedia 的技术。但是,如果我只是想附加一些文本行来改进模型怎么办——真的没有办法吗? (如果是这样——那就太蠢了……)
很遗憾,你不能。请参阅 this question,其中对同一问题有详细的解答。
我认为,这是一个棘手的问题,因为当您处理文本时,您经常会遇到许可问题。例如,您不能在 Twitter 数据上构建语料库并将其发布到社区(有关更多信息,请参阅 this paper)。
因此,公司通常会构建特定领域的语料库并在内部使用。例如,我们在研究项目中所做的。因此,我们构建了一个工具(Quick Pad Tagger)来高效地创建带注释的语料库(参见 here)。
好的,我认为这需要一个单独的答案。
我找到了 Yago 数据库:http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago//
这个数据库似乎非常棒(乍一看)。您可以下载所有标记的数据并将其放入数据库中(他们已经为此提供了工具)。
下一阶段是 "refactor" 标记的实体,以便 opennlp 可以使用它(openNLP 使用某物。像这样 <START:person> Pierre Vinken <END>
)
然后您创建一些文本文件并使用 opennlp 提供的训练工具对其进行训练。
不是 100% 确定这是否有效,但我会回来告诉你。
我知道之前有人问过这个问题 - 但答案并不令人满意(从某种意义上说,答案只是 link)。
所以我的问题是,有什么方法可以扩展现有的 openNLP 模型吗?我已经了解 DBPedia/Wikipedia 的技术。但是,如果我只是想附加一些文本行来改进模型怎么办——真的没有办法吗? (如果是这样——那就太蠢了……)
很遗憾,你不能。请参阅 this question,其中对同一问题有详细的解答。
我认为,这是一个棘手的问题,因为当您处理文本时,您经常会遇到许可问题。例如,您不能在 Twitter 数据上构建语料库并将其发布到社区(有关更多信息,请参阅 this paper)。
因此,公司通常会构建特定领域的语料库并在内部使用。例如,我们在研究项目中所做的。因此,我们构建了一个工具(Quick Pad Tagger)来高效地创建带注释的语料库(参见 here)。
好的,我认为这需要一个单独的答案。 我找到了 Yago 数据库:http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago//
这个数据库似乎非常棒(乍一看)。您可以下载所有标记的数据并将其放入数据库中(他们已经为此提供了工具)。
下一阶段是 "refactor" 标记的实体,以便 opennlp 可以使用它(openNLP 使用某物。像这样 <START:person> Pierre Vinken <END>
)
然后您创建一些文本文件并使用 opennlp 提供的训练工具对其进行训练。
不是 100% 确定这是否有效,但我会回来告诉你。