如何格式化 TSV 文件以与 torchtext 一起使用?
How to format TSV files to use with torchtext?
我格式化的方式是这样的:
Jersei N
atinge V
média N
. PU
Programe V
...
每行的第一个字符串是词项,另一个是pos标签。但是空行(我用来表示句子的结尾)在 运行 给定代码时给我错误 AttributeError: 'Example' object has no attribute 'text'
:
src = data.Field()
trg = data.Field(sequential=False)
mt_train = datasets.TabularDataset(
path='/path/to/file.tsv',
fields=(src, trg))
src.build_vocab(train)
如何将 EOS 标记为 torchtext 的正确方法?
以下代码按照我格式化的方式读取 TSV:
mt_train = datasets.SequenceTaggingDataset(path='/path/to/file.tsv',
fields=(('text', text),
('labels', labels)))
碰巧 SequenceTaggingDataset
正确地将一个空行标识为句子分隔符。
我格式化的方式是这样的:
Jersei N
atinge V
média N
. PU
Programe V
...
每行的第一个字符串是词项,另一个是pos标签。但是空行(我用来表示句子的结尾)在 运行 给定代码时给我错误 AttributeError: 'Example' object has no attribute 'text'
:
src = data.Field()
trg = data.Field(sequential=False)
mt_train = datasets.TabularDataset(
path='/path/to/file.tsv',
fields=(src, trg))
src.build_vocab(train)
如何将 EOS 标记为 torchtext 的正确方法?
以下代码按照我格式化的方式读取 TSV:
mt_train = datasets.SequenceTaggingDataset(path='/path/to/file.tsv',
fields=(('text', text),
('labels', labels)))
碰巧 SequenceTaggingDataset
正确地将一个空行标识为句子分隔符。