人工增强的数据集和 LSTM/RNN 网络?

Artificially augmented dataset and LSTM/RNN network?

我们正在使用由两个不同作者的所有书籍制作的数据集,通过 torch-rnn(和 tensorflow char-rnn 作为测试)生成新内容。

我们当前的数据集约为 6MB,我想知道如果我简单地复制粘贴数据以将馈送网络的字符数量加倍 - 从 6MB 到 12MB / 24 / (...) 120MB 会发生什么? - 同时根据数据集的新权重增加 rnn 大小和层数?尝试更糟吗?网络是否有机会达到更好的困惑度?

感谢您的回答!

简短的回答是不,没有任何意义。 ML 方法的数据量不是以存储的文件 MB 为单位,而是以您提供的信息量为单位。复制现有数据不会提供 任何 新信息,因此它实际上什么都不做。请注意,RNN 的训练不是基于处理你的数据一次,你会多次处理 - 这应该告诉你为什么复制数据集没有任何改变(通过一次有什么区别一份数据的 2 个副本并通过一份副本两次?)

数据扩充是提供信息的过程,这就是为什么对于图像处理,人们会随机旋转图像、裁剪图像等,因为这会为您的模型提供有关什么的信息种类的转换不影响标签。语言扩充 更难,因为语言有非常复杂的规则,例如,您可以尝试用基于 wordnet 的同义词替换一些单词,但这只是一种启发式方法,可能会严重失败(因为您需要替换给定含义中的单词,而不仅仅是单词的每次出现)。