SageMaker TF 2.3 分布式训练
SageMaker TF 2.3 distributed training
我正在尝试使用 SageMaker v2.29.2 和 Tensorflow v2.3.2 实施分布式训练,如以下博文中所述:
但是我在导入 smdistributed 脚本时遇到了困难。
这是我的代码:
import tensorflow as tf
import smdistributed.modelparallel.tensorflow as smp
错误:
Traceback (most recent call last):
File "temp.py", line 2, in <module>
import smdistributed.modelparallel.tensorflow as smp
ModuleNotFoundError: No module named 'smdistributed'
我错过了什么?
smdistributed 仅适用于 SageMaker 容器。它支持特定的 TensorFlow 版本,您必须添加:
distribution={'smdistributed': {
'dataparallel': {
'enabled': True
}
}}
关于估算器代码以启用它
我正在尝试使用 SageMaker v2.29.2 和 Tensorflow v2.3.2 实施分布式训练,如以下博文中所述:
但是我在导入 smdistributed 脚本时遇到了困难。
这是我的代码:
import tensorflow as tf
import smdistributed.modelparallel.tensorflow as smp
错误:
Traceback (most recent call last):
File "temp.py", line 2, in <module>
import smdistributed.modelparallel.tensorflow as smp
ModuleNotFoundError: No module named 'smdistributed'
我错过了什么?
smdistributed 仅适用于 SageMaker 容器。它支持特定的 TensorFlow 版本,您必须添加:
distribution={'smdistributed': {
'dataparallel': {
'enabled': True
}
}}
关于估算器代码以启用它