使用多个文本文件训练斯坦福词性标注器
Training Stanford POS tagger using multiple text files
我有一个大约20000个文本文件的语料库,我想用这些文本文件来训练标注器,这样更好,把这些文本文件分组到一个文本文件中(不知道会不会影响标注是否准确)或将所有这些文本文件包含在 props 文件中?
我认为这不重要。代码应该只加载所有数据,如果将它分成多个文件,这只是为了方便。此外,您可以为不同的文件指定不同的输入格式,但这不会影响最终模型。
我有一个大约20000个文本文件的语料库,我想用这些文本文件来训练标注器,这样更好,把这些文本文件分组到一个文本文件中(不知道会不会影响标注是否准确)或将所有这些文本文件包含在 props 文件中?
我认为这不重要。代码应该只加载所有数据,如果将它分成多个文件,这只是为了方便。此外,您可以为不同的文件指定不同的输入格式,但这不会影响最终模型。