为什么删除或选择列不能与 Spark Structured Streaming 一起正常工作?

Why dropping or selecting columns is not working properly with Spark Structured Streaming?

我有以下代码和结果。在这里,我使用的是 Databricks 的自动加载器。

我得到的结果不正确,因为如果我不删除列 (df2),我会得到以下结果。

请注意,我注意到 select 有类似的行为。我在这里犯了什么错误?

我找到问题了。我需要明确指定第一行是 header。所以,我把相关行改成了这个,

df = (spark.readStream.format("cloudFiles").option("cloudFiles.format", "csv")
      .option("header", "true").schema(schema).load("/FileStore/tables/movies7"))