如何使用 Databrick 访问 AWS public 数据集？

Question

我是数据块的新手。我正在为我的学校项目寻找 public 大数据集，然后我在这个 link 上遇到了 AWS public 数据集：https://registry.opendata.aws/target/

我在 Databricks 上使用 python，但我不知道如何与数据建立连接。我找到了以下指导方法：

提到了

我不确定如何找到相应的 access_key、secret_key、AWS_bucket_name 和 mount_name。

Answer 1

此文档适用于 non-public 个 S3 存储桶。

对于此数据集，您可以使用 s3://... URL 简单地阅读，如下所示：

df = spark.read.format("text").load("s3://gdc-target-phs000218-2-open/")

我使用 text 文件格式只是为了举例，但是因为这个数据集使用 XML 来存储数据，你需要使用类似 spark-xml library 的东西来提取必要的数据.

How to access the AWS public dataset using Databrick?