如何使用 Databrick 访问 AWS public 数据集?

How to access the AWS public dataset using Databrick?

我是数据块的新手。我正在为我的学校项目寻找 public 大数据集,然后我在这个 link 上遇到了 AWS public 数据集:https://registry.opendata.aws/target/

我在 Databricks 上使用 python,但我不知道如何与数据建立连接。我找到了以下指导方法:

https://databricks.com/wp-content/uploads/2015/08/Databricks-how-to-data-import.pdf?_ga=2.25033139.881714623.1602433762-982722630.1598480448

提到了

我不确定如何找到相应的 access_key、secret_key、AWS_bucket_name 和 mount_name。

此文档适用于 non-public 个 S3 存储桶。

对于此数据集,您可以使用 s3://... URL 简单地阅读,如下所示:

df = spark.read.format("text").load("s3://gdc-target-phs000218-2-open/")

我使用 text 文件格式只是为了举例,但是因为这个数据集使用 XML 来存储数据,你需要使用类似 spark-xml library 的东西来提取必要的数据.