火炬文本数据 build_vocab / data_field

torchtext data build_vocab / data_field

我想问你一些关于 torchtext 的问题。

我有一个关于抽象文本摘要的任务,我用pytorch建立了一个seq2seq模型。

我只是想知道 data_field 是由 torchtext 中的 build_vocab 函数构造的。

在机器翻译中,我接受需要两个 data_fields(输入,输出)。

但是,总而言之,输入数据和输出数据是同一种语言。

这里,我要不要在这里做两个data_field(full_sentence, abstract_sentence)?

或者只用一个可以吗data_field?

我担心我的错误选择会使模型的性能下降。

求指点。

在摘要和其他任务的情况下你是对的,为输入和输出构建和使用相同的词汇表是有意义的