将数据从数据库移动到 Azure blob 存储
Moving data from a database to Azure blob storage
我可以使用 dask.dataframe.read_sql_table 读取数据,例如df = dd.read_sql_table(table='TABLE', uri=uri, index_col='field', npartitions=N)
将其保存为 Azure blob 存储中的 parquet 文件的下一步(最佳)步骤是什么?
根据我的小调查,有几个选择:
- 保存在本地并使用https://docs.microsoft.com/en-us/azure/storage/common/storage-use-azcopy-blobs?toc=/azure/storage/blobs/toc.json(不适合大数据)
- 我相信adlfs是从blob中读取
- 使用 dask.dataframe.to_parquet 并找出如何指向 blob 容器
- intake 项目(不知道从哪里开始)
$ pip install adlfs
dd.to_parquet(
df=df,
path='absf://{BLOB}/{FILE_NAME}.parquet',
storage_options={'account_name': 'ACCOUNT_NAME',
'account_key': 'ACCOUNT_KEY'},
)
我可以使用 dask.dataframe.read_sql_table 读取数据,例如df = dd.read_sql_table(table='TABLE', uri=uri, index_col='field', npartitions=N)
将其保存为 Azure blob 存储中的 parquet 文件的下一步(最佳)步骤是什么?
根据我的小调查,有几个选择:
- 保存在本地并使用https://docs.microsoft.com/en-us/azure/storage/common/storage-use-azcopy-blobs?toc=/azure/storage/blobs/toc.json(不适合大数据)
- 我相信adlfs是从blob中读取
- 使用 dask.dataframe.to_parquet 并找出如何指向 blob 容器
- intake 项目(不知道从哪里开始)
$ pip install adlfs
dd.to_parquet(
df=df,
path='absf://{BLOB}/{FILE_NAME}.parquet',
storage_options={'account_name': 'ACCOUNT_NAME',
'account_key': 'ACCOUNT_KEY'},
)