以逐个字符的方式生成注意文本
Attention Text Generation in Character-by-Character fashion
我在网上搜索了几天,寻找任何仅使用注意力机制的文本生成模型。
在 Seq-to-Seq 模型的背景下掀起波澜的 Transformer 架构实际上仅基于 注意机制,但主要设计用于翻译或聊天机器人任务,因此不符合目的,但原理符合。
我的问题是:
有没有人知道或听说过一种文本生成模型完全基于 Attention 而没有任何重复?
非常感谢!
P.S。我熟悉 PyTorch.
构建字符级自注意力模型是一项具有挑战性的任务。字符级模型通常基于 RNN。而在 word/subword 模型中,从一开始就很清楚哪些单元具有含义(以及注意力机制可以关注的单元),而字符级模型需要在以下层中学习单词含义。这使得模型很难学习。
文本生成模型只不过是条件语言模型。 Google AI 最近在 Transformer character language model 上发表了一篇论文,但这是我所知道的唯一工作。
无论如何,您应该考虑使用子词单元(如 BPE、SentencePiece),或者如果您真的需要字符级别,请改用 RNN。
我在网上搜索了几天,寻找任何仅使用注意力机制的文本生成模型。
在 Seq-to-Seq 模型的背景下掀起波澜的 Transformer 架构实际上仅基于 注意机制,但主要设计用于翻译或聊天机器人任务,因此不符合目的,但原理符合。
我的问题是:
有没有人知道或听说过一种文本生成模型完全基于 Attention 而没有任何重复?
非常感谢!
P.S。我熟悉 PyTorch.
构建字符级自注意力模型是一项具有挑战性的任务。字符级模型通常基于 RNN。而在 word/subword 模型中,从一开始就很清楚哪些单元具有含义(以及注意力机制可以关注的单元),而字符级模型需要在以下层中学习单词含义。这使得模型很难学习。
文本生成模型只不过是条件语言模型。 Google AI 最近在 Transformer character language model 上发表了一篇论文,但这是我所知道的唯一工作。
无论如何,您应该考虑使用子词单元(如 BPE、SentencePiece),或者如果您真的需要字符级别,请改用 RNN。