SpaCy 模型训练数据：WikiNER

Question

对于 2.0 版 SpaCy 的模型 xx_ent_wiki_sm，提到了 "WikiNER" 数据集，这引出了文章 'Learning multilingual named entity recognition from Wikipedia'。

是否有任何资源可以下载此类数据集以重新训练该模型？或者用于维基百科转储处理的脚本？

Answer 1

Joel（和我的）前研究小组的数据服务器似乎离线：http://downloads.schwa.org/wikiner

我在这里找到了 wp3 文件的镜像，这是我在 spaCy 中使用的文件：https://github.com/dice-group/FOX/tree/master/input/Wikiner

要重新训练 spaCy 模型，您需要创建一个 train/dev 拆分（我会在线获取我的直接比较，但现在......只是随机切割），并命名.iob 扩展名的文件。然后使用：

spacy convert -n 10 /path/to/file.iob /output/directory

-n 10 参数对于在 spaCy 中使用很重要：它将句子连接成 'pseudo-paragraphs'，每个句子 10 个。这让模型了解到文档可以包含多个句子。

SpaCy model training data: WikiNER