如何使用 Databrick 访问 AWS public 数据集?
How to access the AWS public dataset using Databrick?
我是数据块的新手。我正在为我的学校项目寻找 public 大数据集,然后我在这个 link 上遇到了 AWS public 数据集:https://registry.opendata.aws/target/
我在 Databricks 上使用 python,但我不知道如何与数据建立连接。我找到了以下指导方法:
提到了
我不确定如何找到相应的 access_key、secret_key、AWS_bucket_name 和 mount_name。
此文档适用于 non-public 个 S3 存储桶。
对于此数据集,您可以使用 s3://...
URL 简单地阅读,如下所示:
df = spark.read.format("text").load("s3://gdc-target-phs000218-2-open/")
我使用 text
文件格式只是为了举例,但是因为这个数据集使用 XML 来存储数据,你需要使用类似 spark-xml library 的东西来提取必要的数据.
我是数据块的新手。我正在为我的学校项目寻找 public 大数据集,然后我在这个 link 上遇到了 AWS public 数据集:https://registry.opendata.aws/target/
我在 Databricks 上使用 python,但我不知道如何与数据建立连接。我找到了以下指导方法:
提到了
我不确定如何找到相应的 access_key、secret_key、AWS_bucket_name 和 mount_name。
此文档适用于 non-public 个 S3 存储桶。
对于此数据集,您可以使用 s3://...
URL 简单地阅读,如下所示:
df = spark.read.format("text").load("s3://gdc-target-phs000218-2-open/")
我使用 text
文件格式只是为了举例,但是因为这个数据集使用 XML 来存储数据,你需要使用类似 spark-xml library 的东西来提取必要的数据.