写入时 Azure Kusto Spark 覆盖 ingestion_time()

Azure Kusto Spark override ingestion_time() in write

我正在使用 azure-kusto-spark 向 Kusto 写入数据。

写入 Kusto 时,ingestion_time()(默认)returns 提取时间记录。

如何将此日期更改为其他日期?

我尝试使用 creationTime 和 dropByTags。到目前为止没有运气。 下面使用 dropByTags 的示例(我想将 ingestion_time() 更改为“2021-06-19”)

sp = sc._jvm.com.microsoft.kusto.spark.datasink.SparkIngestionProperties(False, ['2021-06-19'], None, None, None, None, None, None)

df.write. \
  format("com.microsoft.kusto.spark.datasource"). \
  ...
  option("sparkIngestionPropertiesJson", sp.toString()). \
  mode("Append"). \
  save()

在 Azure databricks

中将 pyspark 与 jar com.microsoft.azure.kusto:kusto-spark_3.0_2.12:2.7.4 结合使用

ingestion_time() 是提取记录的 UTC 日期时间,由服务测量。无论您使用哪个客户端 API 或摄取管道,都无法覆盖它。

覆盖 creationTime,您在上面提到过,可以确保相应地应用保留和缓存策略(根据数据分片的创建时间衡量,您可以覆盖)。

您可能想说明在什么情况下需要覆盖 ingestion_time()