在 azure ML studio 中安装数据湖存储
Mount a datalake storage in azure ML studio
我从 Azure ML Studio 上的数据湖文件夹创建了一个文件数据集,目前我可以使用以下代码将数据从数据集下载到计算实例:
subscription_id = 'xxx'
resource_group = 'luisdatapipelinetest'
workspace_name = 'ml-pipelines'
workspace = Workspace(subscription_id, resource_group, workspace_name)
dataset = Dataset.get_by_name(workspace, name='files_test')
path = "/mnt/batch/tasks/shared/LS_root/mounts/clusters/demo1231/code/Users/luis.rramirez/test/"
dataset.download(target_path=path, overwrite=True)
这样我就可以访问笔记本中的文件了。
但是从data lake复制数据到compute instance效率不高,如何在vm中挂载data lake目录而不是每次都复制数据?
我从 Azure ML Studio 上的数据湖文件夹创建了一个文件数据集,目前我可以使用以下代码将数据从数据集下载到计算实例:
subscription_id = 'xxx'
resource_group = 'luisdatapipelinetest'
workspace_name = 'ml-pipelines'
workspace = Workspace(subscription_id, resource_group, workspace_name)
dataset = Dataset.get_by_name(workspace, name='files_test')
path = "/mnt/batch/tasks/shared/LS_root/mounts/clusters/demo1231/code/Users/luis.rramirez/test/"
dataset.download(target_path=path, overwrite=True)
这样我就可以访问笔记本中的文件了。
但是从data lake复制数据到compute instance效率不高,如何在vm中挂载data lake目录而不是每次都复制数据?