如何格式化 TSV 文件以与 torchtext 一起使用?

How to format TSV files to use with torchtext?

我格式化的方式是这样的:

Jersei  N
atinge  V
média   N
. PU

Programe    V
...

每行的第一个字符串是词项,另一个是pos标签。但是空行(我用来表示句子的结尾)在 运行 给定代码时给我错误 AttributeError: 'Example' object has no attribute 'text'

src = data.Field()
trg = data.Field(sequential=False)
mt_train = datasets.TabularDataset(
    path='/path/to/file.tsv',
    fields=(src, trg))
src.build_vocab(train)

如何将 EOS 标记为 torchtext 的正确方法?

以下代码按照我格式化的方式读取 TSV:

mt_train = datasets.SequenceTaggingDataset(path='/path/to/file.tsv',
                                           fields=(('text', text),
                                                   ('labels', labels)))

碰巧 SequenceTaggingDataset 正确地将一个空行标识为句子分隔符。