在配置文件选项卡中的 TensorBoard 中出现奇怪的结果

Getting weird results in TensorBoard in the Profile Tab

我的 TensorBoard Profile 计算结果有点可疑。似乎我的主机空闲时间(不确定这是指哪个主机?)真的很高,这非常糟糕,但我的 TPU 空闲时间为 0%,这非常好。另外,我该怎么做才能测量步进时间?我在这里有点迷路了。

没有步进时间图的结果可以指示步进时间长于默认收集持续时间(2 秒)。

增加这个 运行 capture_tpu_profile 选项

--duration_ms=60000

捕获 60 秒周期的指标。

检查这是否是问题的一种方法是在跟踪查看器中查找顶部的编号步骤。

TPU 步骤时间通常少于一秒,因此如果 60 秒仍然不够长,则可能是输入管道存在问题。跟踪查看器应该会显示哪些线程正在占用时间,您可以按照本指南优化输入管道。

https://www.tensorflow.org/performance/datasets_performance

另一种选择是在模型 运行 完成几个步骤后捕获配置文件,由于缓存的增加,前几个步骤往往较慢。