AWS SageMaker Spark SQL

AWS SageMaker Spark SQL

我知道,例如,通过使用 Zeppelin 笔记本的 Qubole 的 Hive 产品,我可以使用 Spark SQL 执行本机 SQL 命令以与 Hive 表交互。我可以从外部表读取并创建内部表,或者只是 运行 即席查询。

我正在 AWS 中从事一个项目。我在 S3 中有数据,在 Athena 中创建了外部表。我找到了一些文章,并按照它们设置了一些 Jupyter notebook,但我不知道如何才能拥有 notebooks 运行ning Spark SQL。这可能吗?

如果没有,AWS 生态系统中封装逻辑以从外部表创建内部表以进行二次数据处理的最佳机制是什么。

您有两个选择:

1) 运行 EMR 上的 Jupyter 笔记本:https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-managed-notebooks.html

2) 运行 SageMaker 上的 Jupyter 笔记本:https://docs.aws.amazon.com/sagemaker/latest/dg/gs.html

两者都支持 PySpark,因此您应该能够 运行 SQL 查询数据所在的任何后端。