为什么删除或选择列不能与 Spark Structured Streaming 一起正常工作？

Question

我有以下代码和结果。在这里，我使用的是 Databricks 的自动加载器。

我得到的结果不正确，因为如果我不删除列 (df2)，我会得到以下结果。

请注意，我注意到 select 有类似的行为。我在这里犯了什么错误？

Answer 1

我找到问题了。我需要明确指定第一行是 header。所以，我把相关行改成了这个，

df = (spark.readStream.format("cloudFiles").option("cloudFiles.format", "csv")
      .option("header", "true").schema(schema).load("/FileStore/tables/movies7"))

为什么删除或选择列不能与 Spark Structured Streaming 一起正常工作？

Why dropping or selecting columns is not working properly with Spark Structured Streaming?

apache-spark

pyspark

databricks

spark-structured-streaming