人工增强的数据集和 LSTM/RNN 网络？

Artificially augmented dataset and LSTM/RNN network?

我们正在使用由两个不同作者的所有书籍制作的数据集，通过 torch-rnn（和 tensorflow char-rnn 作为测试）生成新内容。

我们当前的数据集约为 6MB，我想知道如果我简单地复制粘贴数据以将馈送网络的字符数量加倍 - 从 6MB 到 12MB / 24 / (...) 120MB 会发生什么？ - 同时根据数据集的新权重增加 rnn 大小和层数？尝试更糟吗？网络是否有机会达到更好的困惑度？

感谢您的回答！

简短的回答是不，没有任何意义。 ML 方法的数据量不是以存储的文件 MB 为单位，而是以您提供的信息量为单位。复制现有数据不会提供任何新信息，因此它实际上什么都不做。请注意，RNN 的训练不是基于处理你的数据一次，你会多次处理 - 这应该告诉你为什么复制数据集没有任何改变（通过一次有什么区别一份数据的 2 个副本并通过一份副本两次？）

数据扩充是提供新信息的过程，这就是为什么对于图像处理，人们会随机旋转图像、裁剪图像等，因为这会为您的模型提供有关什么的信息种类的转换不影响标签。语言扩充更更难，因为语言有非常复杂的规则，例如，您可以尝试用基于 wordnet 的同义词替换一些单词，但这只是一种启发式方法，可能会严重失败（因为您需要替换给定含义中的单词，而不仅仅是单词的每次出现）。

人工增强的数据集和 LSTM/RNN 网络？

Artificially augmented dataset and LSTM/RNN network?

dataset

deep-learning

lstm

rnn