textsum 训练大约需要多长时间才能将平均损失降低到合适的值
Approx how long should textsum training take to drop average loss to decent value
我正在努力使 textsum 实现正常工作,并且最近输入了我自己的抓取数据。我昨晚开始针对 38000 篇文章进行训练。今天早上看平均亏损,大概是5.2000000。例如,当我玩 textsum 玩具组时,我能够快速下降到 0.0000054 左右,但这只是针对大约 20 篇文章。
我希望有更多经验的人可以为我提供一些关于培训需要多长时间的预期。我目前在 Nvidia 980M 上 运行。上周我确实想试用 AWS g2.2xlarge 实例,但讽刺的是我发现我的本地机器似乎比 Grid 520 的处理速度更快。我仍然想测试 P2 实例和 Google 云,但现在我想我只打算使用我的本地机器。
任何人都可以在这里提供关于我应该期待什么的任何信息?谢谢!
所以我要自己回答这个问题,因为我现在几乎可以这样做了。我从另一个 post 中发现的一件有趣的事情是,对于大型数据集,关于 'average loss' 值,你真的不应该训练低于 1 的值。这是因为您随后开始进入 'overfitting'。因此,在我目前使用笔记本电脑的 Nvidia 980M 对 40k 篇文章进行的训练中,vocab 文件有 65997 个单词,平均需要大约一天的时间才能将 'average loss' 减去一个整数。所以目前我看到的数字在 1.2 到 2.8 左右。
------ 编辑 ------
当我 运行 对数据进行解码时,我的平均损失为上述数字,结果非常糟糕。仔细考虑之后,我意识到我的数据集可能不是 "large" 数据集。像 Xin Pan 和其他可以访问 Gigaword 数据集的人正在 运行 针对 100 万多篇文章进行训练。因此,我觉得我的 40k 篇文章无法与之相比。另外,在做出上述陈述时,我不确定他的意思是平均损失 1 还是 0.01。无论哪种方式,我现在都指的是 Tensorboard 在某种程度上可视化 "overfitting" 并且我将继续我的训练,直到我获得较低的平均损失。当我的结果更好时,我会在稍后添加。
希望能给有同样疑惑的小伙伴们一点参考。
我正在努力使 textsum 实现正常工作,并且最近输入了我自己的抓取数据。我昨晚开始针对 38000 篇文章进行训练。今天早上看平均亏损,大概是5.2000000。例如,当我玩 textsum 玩具组时,我能够快速下降到 0.0000054 左右,但这只是针对大约 20 篇文章。
我希望有更多经验的人可以为我提供一些关于培训需要多长时间的预期。我目前在 Nvidia 980M 上 运行。上周我确实想试用 AWS g2.2xlarge 实例,但讽刺的是我发现我的本地机器似乎比 Grid 520 的处理速度更快。我仍然想测试 P2 实例和 Google 云,但现在我想我只打算使用我的本地机器。
任何人都可以在这里提供关于我应该期待什么的任何信息?谢谢!
所以我要自己回答这个问题,因为我现在几乎可以这样做了。我从另一个 post 中发现的一件有趣的事情是,对于大型数据集,关于 'average loss' 值,你真的不应该训练低于 1 的值。这是因为您随后开始进入 'overfitting'。因此,在我目前使用笔记本电脑的 Nvidia 980M 对 40k 篇文章进行的训练中,vocab 文件有 65997 个单词,平均需要大约一天的时间才能将 'average loss' 减去一个整数。所以目前我看到的数字在 1.2 到 2.8 左右。
------ 编辑 ------ 当我 运行 对数据进行解码时,我的平均损失为上述数字,结果非常糟糕。仔细考虑之后,我意识到我的数据集可能不是 "large" 数据集。像 Xin Pan 和其他可以访问 Gigaword 数据集的人正在 运行 针对 100 万多篇文章进行训练。因此,我觉得我的 40k 篇文章无法与之相比。另外,在做出上述陈述时,我不确定他的意思是平均损失 1 还是 0.01。无论哪种方式,我现在都指的是 Tensorboard 在某种程度上可视化 "overfitting" 并且我将继续我的训练,直到我获得较低的平均损失。当我的结果更好时,我会在稍后添加。
希望能给有同样疑惑的小伙伴们一点参考。