无法在 Azure 中使用 pyspark 访问 table

Question

我在 azure synaps 中创建了一个带有 table 的数据库，它是示例 azure 数据的外部 table。

我运行下面的代码通过 pysparktable 访问这个 table 中的数据

df = spark.sql("select * FROM greentaxidb.dbo.taxitable")

当我运行上面的代码时，我得到：

pyspark.sql.utils.AnalysisException: The namespace in session catalog must have exactly one name part: greentaxidb.dbo.taxitable

Answer 1

使用 saveAsTable 将数据加载到 dataframe 到运行 pyspark notebook 中。

%%pyspark
df = spark.read.load('abfss://<container-name>@<storage-account-name>.dfs.core.windows.net/<filename>', format='parquet')
df.write.mode("overwrite").saveAsTable("testdb.test1")

--

%%pyspark
df = spark.sql("select * from testdb.test1")
display(df)

您可以通过 here and here 中的链接了解更多详情。

无法在 Azure 中使用 pyspark 访问 table

Cannot access to the table with pyspark in azure

sql

azure

pyspark

azure-synapse