为什么删除或选择列不能与 Spark Structured Streaming 一起正常工作?
Why dropping or selecting columns is not working properly with Spark Structured Streaming?
我有以下代码和结果。在这里,我使用的是 Databricks 的自动加载器。
我得到的结果不正确,因为如果我不删除列 (df2),我会得到以下结果。
请注意,我注意到 select
有类似的行为。我在这里犯了什么错误?
我找到问题了。我需要明确指定第一行是 header。所以,我把相关行改成了这个,
df = (spark.readStream.format("cloudFiles").option("cloudFiles.format", "csv")
.option("header", "true").schema(schema).load("/FileStore/tables/movies7"))
我有以下代码和结果。在这里,我使用的是 Databricks 的自动加载器。
我得到的结果不正确,因为如果我不删除列 (df2),我会得到以下结果。
请注意,我注意到 select
有类似的行为。我在这里犯了什么错误?
我找到问题了。我需要明确指定第一行是 header。所以,我把相关行改成了这个,
df = (spark.readStream.format("cloudFiles").option("cloudFiles.format", "csv")
.option("header", "true").schema(schema).load("/FileStore/tables/movies7"))