训练模型时多次训练小数据和一次训练大数据有区别吗?

Is there a difference between training small data multiple times and large data once when training a model?

我已经有一个训练了 130,000 个句子的模型。

我想用双向 lstm 对句子进行分类。 我们计划使用这项服务。 但是,必须在整个服务过程中继续训练模型。

所以我觉得 直到模型的准确性提高 我会看看模型分类的句子,我会自己回答。

我会训练句子来回答。

句子一个一个训练和合并成一个文件训练有区别吗?

每次我给一句话 一对一训练 重要吗?

是的,有区别。假设,你有一个包含 10,000 个句子的数据集。

  • 如果你每次训练一个句子,那么优化将发生在每个句子上(反向传播)。这会消耗更多的时间和内存,不是一个好的选择。如果您有大型数据集,这是不可能的。在每个实例上计算梯度是嘈杂的,收敛速度较慢。
  • 如果你是批量训练,假设批量大小是 1000,那么你有 10 个批次。这些批次一起进入网络,因此在这些批次上计算梯度。因此,梯度接收到足够的噪声以收敛于全局最小值而不是局部最小值。此外,它具有内存效率并且收敛速度更快。

您可以查看来自 here, here and here 的答案。