如何格式化 TSV 文件以与 torchtext 一起使用？

Question

我格式化的方式是这样的：

Jersei  N
atinge  V
média   N
. PU

Programe    V
...

每行的第一个字符串是词项，另一个是pos标签。但是空行（我用来表示句子的结尾）在运行给定代码时给我错误 AttributeError: 'Example' object has no attribute 'text'：

src = data.Field()
trg = data.Field(sequential=False)
mt_train = datasets.TabularDataset(
    path='/path/to/file.tsv',
    fields=(src, trg))
src.build_vocab(train)

如何将 EOS 标记为 torchtext 的正确方法？

Answer 1

以下代码按照我格式化的方式读取 TSV：

mt_train = datasets.SequenceTaggingDataset(path='/path/to/file.tsv',
                                           fields=(('text', text),
                                                   ('labels', labels)))

碰巧 SequenceTaggingDataset 正确地将一个空行标识为句子分隔符。

如何格式化 TSV 文件以与 torchtext 一起使用？

How to format TSV files to use with torchtext?

csv

pytorch

torchtext