将图像数据集上传到 S3 sagemaker
upload image dataset to S3 sagemaker
我的数据集是 3 个图像文件夹(训练、验证和测试)。每个文件夹都有两个子文件夹(cat1 和 cat2)。我正在使用 AWS sage maker 预处理我的数据并训练我的模型。我们都知道,在开始“.fit”过程之前,我们必须将训练数据上传到 S3 存储桶。
我想知道如何将我的数据集上传到 S3
# general prefix
prefix='chest-xray'
#unique train/test prefixes
train_prefix = '{}/{}'.format(prefix, 'train')
val_prefix = '{}/{}'.format(prefix, 'validation')
test_prefix = '{}/{}'.format(prefix, 'test')
# uploading data to S3, and saving locations
train_path = sagemaker_session.upload_data(train_data, bucket=bucket, key_prefix=train_prefix)
train_data 参数应该是什么样子
根据 documentation train_data
是要上传到 S3 的文件的本地路径,因此您需要在本地启动训练作业的地方使用此文件。如果您使用的是笔记本电脑,则不是这样做的方法。您必须手动将数据集上传到 S3 存储桶中。我建议在单个文件中预处理您的数据集(例如,如果您使用的是 TF,则为 tfrecord)并将该文件上传到 S3。您可以使用 AWS Web 控制台或使用带有 aws s3 cp yourfile s3://your-bucket
命令的 AWS-CLI 来执行此操作。
我的数据集是 3 个图像文件夹(训练、验证和测试)。每个文件夹都有两个子文件夹(cat1 和 cat2)。我正在使用 AWS sage maker 预处理我的数据并训练我的模型。我们都知道,在开始“.fit”过程之前,我们必须将训练数据上传到 S3 存储桶。 我想知道如何将我的数据集上传到 S3
# general prefix
prefix='chest-xray'
#unique train/test prefixes
train_prefix = '{}/{}'.format(prefix, 'train')
val_prefix = '{}/{}'.format(prefix, 'validation')
test_prefix = '{}/{}'.format(prefix, 'test')
# uploading data to S3, and saving locations
train_path = sagemaker_session.upload_data(train_data, bucket=bucket, key_prefix=train_prefix)
train_data 参数应该是什么样子
根据 documentation train_data
是要上传到 S3 的文件的本地路径,因此您需要在本地启动训练作业的地方使用此文件。如果您使用的是笔记本电脑,则不是这样做的方法。您必须手动将数据集上传到 S3 存储桶中。我建议在单个文件中预处理您的数据集(例如,如果您使用的是 TF,则为 tfrecord)并将该文件上传到 S3。您可以使用 AWS Web 控制台或使用带有 aws s3 cp yourfile s3://your-bucket
命令的 AWS-CLI 来执行此操作。