在开头创建一个带有可选部分的 DateTimeFormater
Create a DateTimeFormater with an Optional Section at Beginning
我有这种结构 hh:mm:ss.SSS
的时间码,我有自己的 Class,实现时间接口。
它具有自定义字段 TimecodeHour 字段,允许小时值大于 23。
我想用 DateTimeFormatter 解析。小时值可选(可以省略,小时可以大于24);作为正则表达式 (\d*\d\d:)?\d\d:\d\d.\d\d\d
出于这个问题的目的,我的自定义字段可以替换为正常的 HOUR_OF_DAY 字段。
我当前的格式化程序
DateTimeFormatter UNLIMITED_HOURS = new DateTimeFormatterBuilder()
.appendValue(ChronoField.HOUR_OF_DAY, 2, 2,SignStyle.NEVER)
.appendLiteral(':')
.parseDefaulting(TimecodeHour.HOUR, 0)
.toFormatter(Locale.ENGLISH);
DateTimeFormatter TIMECODE = new DateTimeFormatterBuilder()
.appendOptional(UNLIMITED_HOURS)
.appendValue(MINUTE_OF_HOUR, 2)
.appendLiteral(':')
.appendValue(SECOND_OF_MINUTE, 2)
.appendFraction(MILLI_OF_SECOND, 3, 3, true)
.toFormatter(Locale.ENGLISH);
具有小时值的时间码按预期解析,但具有小时值的时间码会抛出异常
java.time.format.DateTimeParseException: Text '20:33.123' could not be parsed at index 5
我假设,由于小时和分钟具有相同的模式,解析器从前面开始并捕获可选部分的分钟值。
这样对吗,怎么解决?
我认为根本的问题在于它在错误的路径上卡住了。它看到一个长度为 2 的字段,我们知道它是分钟,但它认为是小时。一旦它认为可选部分存在,当我们知道它不存在时,整个事情注定要失败。
这可以通过将最短小时长度更改为 3 来证明。
.appendValue(TimecodeHour.HOUR, 3, 4, SignStyle.NEVER)
现在知道“20”不能是小时,因为小时至少需要3位数字。通过这个小改动,它现在可以正确解析,无论可选部分是否存在。
所以假设小时字段确实需要在 2 到 4 位数字之间,我认为您不得不实施解决方法。例如,计算字符串中冒号的数量并使用不同的格式化程序,具体取决于您 运行 进入的格式化程序。使用除冒号以外的不同分隔符来表示小时数也可以。
自推出以来,解析器逻辑在各种 Java 版本中经历了相当多的错误修复 - 正如您可以想象的那样,有很多潜在的边缘情况 - 所以我希望使用最新版本Java 会使这个问题消失。不幸的是,似乎即使在 Java 16 中,行为仍然相同。
尝试使用两个可选部分(一个有小时,另一个没有),如:
var formatter = new DateTimeFormatterBuilder()
.optionalStart()
.appendValue(HOUR_OF_DAY, 2, 4, SignStyle.NEVER).appendLiteral(":")
.appendValue(MINUTE_OF_HOUR, 2).appendLiteral(":")
.appendValue(SECOND_OF_MINUTE, 2)
.optionalEnd()
.optionalStart()
.parseDefaulting(HOUR_OF_DAY, 0)
.appendValue(MINUTE_OF_HOUR, 2).appendLiteral(":")
.appendValue(SECOND_OF_MINUTE, 2)
.optionalEnd()
.toFormatter(Locale.ENGLISH);
我不知道TimecodeHour
,所以我用HOUR_OF_DAY
测试了
(也太懒了包括分数)
我开始怀疑 20:33.123
不是用来表示一天中午夜过后 20 到 21 分钟之间的时间。也许相当多的时间,比 20 分钟长一点。如果这是正确的,请使用 Duration
。
遗憾的是 java.time 不包括解析和格式化 Duration
非 ISO 8601 格式的方法。这给我们留下了至少三个选择:
- 使用第三方库。 Time4J 提供了一个优雅的解决方案,见下文。 Joda-Time 有它的
PeriodFormatter
class。 Apache 还可能提供解析和格式化持续时间的工具。
- 在使用
Duration.parse()
解析之前将您的字符串转换为 ISO 8601 格式。
- 编写您自己的解析器。
我在想我们对 3. 太懒了,而且 Joda-Time 已经过时了,所以我想在这里追求选项 1. 和 2.,选项 1. 在 Time4J 变体中。
适应 ISO 8601 的正则表达式
ISO 8601 格式起初感觉很不寻常,但很简单。 PT20M33.123S
表示20分33.123秒。
public static Duration parse(String timeCodeString) {
String iso8601 = timeCodeString
.replaceFirst("^(\d{2,}):(\d{2}):(\d{2}\.\d{3})$", "PTHMS")
.replaceFirst("^(\d{2}):(\d{2}\.\d{3})$", "PTMS");
return Duration.parse(iso8601);
}
让我们试试看:
System.out.println(parse("20:33.123"));
System.out.println(parse("123:20:33.123"));
输出为:
PT20M33.123S
PT123H20M33.123S
我打给 replaceFirst
的两次电话首先处理有小时的案例,然后是没有小时的案例。因此,两者都会将与您的正则表达式匹配的字符串转换为 ISO 8601 格式。 Duration
class 然后解析。如您所见,Duration
还打印回 ISO 8601 格式。不过,以不同的方式格式化也不错,搜索如何。
Time4J
Time4J 库提供了非常优雅的解决方案,与您的思路非常相似。我们真正需要的是这个格式化程序:
private static final Formatter<ClockUnit> TIME_CODE_PARSER
= Duration.formatter(ClockUnit.class, "[###hh:mm:ss.fff][mm:ss.fff]");
只需这样使用:
System.out.println(TIME_CODE_PARSER.parse("20:33.123"));
System.out.println(TIME_CODE_PARSER.parse("123:20:33.123"));
PT20M33,123000000S
PT123H20M33,123000000S
Time4J Duration
class 也打印 ISO 8601 格式。似乎它使用逗号作为 ISO 8601 中首选的小数分隔符,并且当其中一些为 0 时,它也会在秒上打印 9 个小数。
格式模式字符串中###hh
表示2到5位小时,fff
表示秒的小数点后三位。
你的方法有什么问题吗?
你的方法有什么问题吗? ChronoField.HOUR_OF_DAY
表示:一天中的小时。 0 是午夜,12 是中午,23 是接近一天结束的时候。这不是您想要的,所以是的,您使用了错误的方法。虽然您可能可以让它工作,但在您之后维护您的代码的任何人都会发现它令人困惑,并且可能很难根据您的意图进行修改。
链接
我有这种结构 hh:mm:ss.SSS
的时间码,我有自己的 Class,实现时间接口。
它具有自定义字段 TimecodeHour 字段,允许小时值大于 23。
我想用 DateTimeFormatter 解析。小时值可选(可以省略,小时可以大于24);作为正则表达式 (\d*\d\d:)?\d\d:\d\d.\d\d\d
出于这个问题的目的,我的自定义字段可以替换为正常的 HOUR_OF_DAY 字段。
我当前的格式化程序
DateTimeFormatter UNLIMITED_HOURS = new DateTimeFormatterBuilder()
.appendValue(ChronoField.HOUR_OF_DAY, 2, 2,SignStyle.NEVER)
.appendLiteral(':')
.parseDefaulting(TimecodeHour.HOUR, 0)
.toFormatter(Locale.ENGLISH);
DateTimeFormatter TIMECODE = new DateTimeFormatterBuilder()
.appendOptional(UNLIMITED_HOURS)
.appendValue(MINUTE_OF_HOUR, 2)
.appendLiteral(':')
.appendValue(SECOND_OF_MINUTE, 2)
.appendFraction(MILLI_OF_SECOND, 3, 3, true)
.toFormatter(Locale.ENGLISH);
具有小时值的时间码按预期解析,但具有小时值的时间码会抛出异常
java.time.format.DateTimeParseException: Text '20:33.123' could not be parsed at index 5
我假设,由于小时和分钟具有相同的模式,解析器从前面开始并捕获可选部分的分钟值。 这样对吗,怎么解决?
我认为根本的问题在于它在错误的路径上卡住了。它看到一个长度为 2 的字段,我们知道它是分钟,但它认为是小时。一旦它认为可选部分存在,当我们知道它不存在时,整个事情注定要失败。
这可以通过将最短小时长度更改为 3 来证明。
.appendValue(TimecodeHour.HOUR, 3, 4, SignStyle.NEVER)
现在知道“20”不能是小时,因为小时至少需要3位数字。通过这个小改动,它现在可以正确解析,无论可选部分是否存在。
所以假设小时字段确实需要在 2 到 4 位数字之间,我认为您不得不实施解决方法。例如,计算字符串中冒号的数量并使用不同的格式化程序,具体取决于您 运行 进入的格式化程序。使用除冒号以外的不同分隔符来表示小时数也可以。
自推出以来,解析器逻辑在各种 Java 版本中经历了相当多的错误修复 - 正如您可以想象的那样,有很多潜在的边缘情况 - 所以我希望使用最新版本Java 会使这个问题消失。不幸的是,似乎即使在 Java 16 中,行为仍然相同。
尝试使用两个可选部分(一个有小时,另一个没有),如:
var formatter = new DateTimeFormatterBuilder()
.optionalStart()
.appendValue(HOUR_OF_DAY, 2, 4, SignStyle.NEVER).appendLiteral(":")
.appendValue(MINUTE_OF_HOUR, 2).appendLiteral(":")
.appendValue(SECOND_OF_MINUTE, 2)
.optionalEnd()
.optionalStart()
.parseDefaulting(HOUR_OF_DAY, 0)
.appendValue(MINUTE_OF_HOUR, 2).appendLiteral(":")
.appendValue(SECOND_OF_MINUTE, 2)
.optionalEnd()
.toFormatter(Locale.ENGLISH);
我不知道TimecodeHour
,所以我用HOUR_OF_DAY
测试了
(也太懒了包括分数)
我开始怀疑 20:33.123
不是用来表示一天中午夜过后 20 到 21 分钟之间的时间。也许相当多的时间,比 20 分钟长一点。如果这是正确的,请使用 Duration
。
遗憾的是 java.time 不包括解析和格式化 Duration
非 ISO 8601 格式的方法。这给我们留下了至少三个选择:
- 使用第三方库。 Time4J 提供了一个优雅的解决方案,见下文。 Joda-Time 有它的
PeriodFormatter
class。 Apache 还可能提供解析和格式化持续时间的工具。 - 在使用
Duration.parse()
解析之前将您的字符串转换为 ISO 8601 格式。 - 编写您自己的解析器。
我在想我们对 3. 太懒了,而且 Joda-Time 已经过时了,所以我想在这里追求选项 1. 和 2.,选项 1. 在 Time4J 变体中。
适应 ISO 8601 的正则表达式
ISO 8601 格式起初感觉很不寻常,但很简单。 PT20M33.123S
表示20分33.123秒。
public static Duration parse(String timeCodeString) {
String iso8601 = timeCodeString
.replaceFirst("^(\d{2,}):(\d{2}):(\d{2}\.\d{3})$", "PTHMS")
.replaceFirst("^(\d{2}):(\d{2}\.\d{3})$", "PTMS");
return Duration.parse(iso8601);
}
让我们试试看:
System.out.println(parse("20:33.123"));
System.out.println(parse("123:20:33.123"));
输出为:
PT20M33.123S PT123H20M33.123S
我打给 replaceFirst
的两次电话首先处理有小时的案例,然后是没有小时的案例。因此,两者都会将与您的正则表达式匹配的字符串转换为 ISO 8601 格式。 Duration
class 然后解析。如您所见,Duration
还打印回 ISO 8601 格式。不过,以不同的方式格式化也不错,搜索如何。
Time4J
Time4J 库提供了非常优雅的解决方案,与您的思路非常相似。我们真正需要的是这个格式化程序:
private static final Formatter<ClockUnit> TIME_CODE_PARSER
= Duration.formatter(ClockUnit.class, "[###hh:mm:ss.fff][mm:ss.fff]");
只需这样使用:
System.out.println(TIME_CODE_PARSER.parse("20:33.123"));
System.out.println(TIME_CODE_PARSER.parse("123:20:33.123"));
PT20M33,123000000S PT123H20M33,123000000S
Time4J Duration
class 也打印 ISO 8601 格式。似乎它使用逗号作为 ISO 8601 中首选的小数分隔符,并且当其中一些为 0 时,它也会在秒上打印 9 个小数。
格式模式字符串中###hh
表示2到5位小时,fff
表示秒的小数点后三位。
你的方法有什么问题吗?
你的方法有什么问题吗? ChronoField.HOUR_OF_DAY
表示:一天中的小时。 0 是午夜,12 是中午,23 是接近一天结束的时候。这不是您想要的,所以是的,您使用了错误的方法。虽然您可能可以让它工作,但在您之后维护您的代码的任何人都会发现它令人困惑,并且可能很难根据您的意图进行修改。