如何在 Spark SQL 中格式化日期?
How to format date in Spark SQL?
我需要将这个给定的日期格式:2019-10-22 00:00:00
转换为这个格式:2019-10-22T00:00:00.000Z
我知道这可以通过以下方式在某些数据库中完成:
在 AWS Redshift 中,您可以使用以下方法实现此目的:
TO_DATE('{RUN_DATE_YYYY/MM/DD}', 'YYYY/MM/DD') || 'T00:00:00.000Z' AS VERSION_TIME
但是我的平台是 Spark SQL,所以上面两个都不适合我,我能得到的最好的是使用这个:
concat(d2.VERSION_TIME, 'T00:00:00.000Z') as VERSION_TIME
这有点 hacky,但仍然不完全正确,有了这个,我得到了这个日期格式:2019-10-25 00:00:00T00:00:00.000Z
,
但是字符串中间的这部分 00:00:00
是多余的,我不能把它留在那里。
任何人对此有任何见解将不胜感激!
也许是这样的?这是一个有点不同的方法。
scala> val df = spark.range(1).select(current_date.as("date"))
scala> df.show()
+----------+
| date|
+----------+
|2019-11-09|
+----------+
scala>
df.withColumn("formatted",
concat(
regexp_replace(date_format('date,"yyyy-MM-dd\tHH:mm:ss.SSS"),"\t","T"),
lit("Z")
)
).show(false)
+----------+------------------------+
|date |formatted |
+----------+------------------------+
|2019-11-09|2019-11-09T00:00:00.000Z|
+----------+------------------------+
这是我认为的自然方式。
spark.sql("""SELECT date_format(to_timestamp("2019-10-22 00:00:00", "yyyy-MM-dd HH:mm:ss"), "yyyy-MM-dd'T'HH:mm:ss.SSS'Z'") as date""").show(false)
结果是:
+------------------------+
|date |
+------------------------+
|2019-10-22T00:00:00.000Z|
+------------------------+
我需要将这个给定的日期格式:2019-10-22 00:00:00
转换为这个格式:2019-10-22T00:00:00.000Z
我知道这可以通过以下方式在某些数据库中完成:
在 AWS Redshift 中,您可以使用以下方法实现此目的:
TO_DATE('{RUN_DATE_YYYY/MM/DD}', 'YYYY/MM/DD') || 'T00:00:00.000Z' AS VERSION_TIME
但是我的平台是 Spark SQL,所以上面两个都不适合我,我能得到的最好的是使用这个:
concat(d2.VERSION_TIME, 'T00:00:00.000Z') as VERSION_TIME
这有点 hacky,但仍然不完全正确,有了这个,我得到了这个日期格式:2019-10-25 00:00:00T00:00:00.000Z
,
但是字符串中间的这部分 00:00:00
是多余的,我不能把它留在那里。
任何人对此有任何见解将不胜感激!
也许是这样的?这是一个有点不同的方法。
scala> val df = spark.range(1).select(current_date.as("date"))
scala> df.show()
+----------+
| date|
+----------+
|2019-11-09|
+----------+
scala>
df.withColumn("formatted",
concat(
regexp_replace(date_format('date,"yyyy-MM-dd\tHH:mm:ss.SSS"),"\t","T"),
lit("Z")
)
).show(false)
+----------+------------------------+
|date |formatted |
+----------+------------------------+
|2019-11-09|2019-11-09T00:00:00.000Z|
+----------+------------------------+
这是我认为的自然方式。
spark.sql("""SELECT date_format(to_timestamp("2019-10-22 00:00:00", "yyyy-MM-dd HH:mm:ss"), "yyyy-MM-dd'T'HH:mm:ss.SSS'Z'") as date""").show(false)
结果是:
+------------------------+
|date |
+------------------------+
|2019-10-22T00:00:00.000Z|
+------------------------+