SpaCy 模型训练数据:WikiNER

SpaCy model training data: WikiNER

对于 2.0 版 SpaCy 的模型 xx_ent_wiki_sm,提到了 "WikiNER" 数据集,这引出了文章 'Learning multilingual named entity recognition from Wikipedia'。

是否有任何资源可以下载此类数据集以重新训练该模型?或者用于维基百科转储处理的脚本?

Joel(和我的)前研究小组的数据服务器似乎离线:http://downloads.schwa.org/wikiner

我在这里找到了 wp3 文件的镜像,这是我在 spaCy 中使用的文件:https://github.com/dice-group/FOX/tree/master/input/Wikiner

要重新训练 spaCy 模型,您需要创建一个 train/dev 拆分(我会在线获取我的直接比较,但现在......只是随机切割),并命名.iob 扩展名的文件。然后使用:

spacy convert -n 10 /path/to/file.iob /output/directory

-n 10 参数对于在 spaCy 中使用很重要:它将句子连接成 'pseudo-paragraphs',每个句子 10 个。这让模型了解到文档可以包含多个句子。