以逐个字符的方式生成注意文本

Attention Text Generation in Character-by-Character fashion

我在网上搜索了几天,寻找任何仅使用注意力机制的文本生成模型。

Seq-to-Seq 模型的背景下掀起波澜的 Transformer 架构实际上仅基于 注意机制,但主要设计用于翻译或聊天机器人任务,因此不符合目的,但原理符合。

我的问题是:

有没有人知道或听说过一种文本生成模型完全基于 Attention 而没有任何重复

非常感谢!

P.S。我熟悉 PyTorch.

构建字符级自注意力模型是一项具有挑战性的任务。字符级模型通常基于 RNN。而在 word/subword 模型中,从一开始就很清楚哪些单元具有含义(以及注意力机制可以关注的单元),而字符级模型需要在以下层中学习单词含义。这使得模型很难学习。

文本生成模型只不过是条件语言模型。 Google AI 最近在 Transformer character language model 上发表了一篇论文,但这是我所知道的唯一工作。

无论如何,您应该考虑使用子词单元(如 BPE、SentencePiece),或者如果您真的需要字符级别,请改用 RNN。