在开头创建一个带有可选部分的 DateTimeFormater

Question

我有这种结构 hh:mm:ss.SSS 的时间码，我有自己的 Class，实现时间接口。它具有自定义字段 TimecodeHour 字段，允许小时值大于 23。我想用 DateTimeFormatter 解析。小时值可选（可以省略，小时可以大于24）；作为正则表达式 (\d*\d\d:)?\d\d:\d\d.\d\d\d

出于这个问题的目的，我的自定义字段可以替换为正常的 HOUR_OF_DAY 字段。

我当前的格式化程序

DateTimeFormatter UNLIMITED_HOURS = new DateTimeFormatterBuilder()
    .appendValue(ChronoField.HOUR_OF_DAY, 2, 2,SignStyle.NEVER)
    .appendLiteral(':')
    .parseDefaulting(TimecodeHour.HOUR, 0)
    .toFormatter(Locale.ENGLISH);
DateTimeFormatter TIMECODE = new DateTimeFormatterBuilder()
    .appendOptional(UNLIMITED_HOURS)
    .appendValue(MINUTE_OF_HOUR, 2)
    .appendLiteral(':')
    .appendValue(SECOND_OF_MINUTE, 2)
    .appendFraction(MILLI_OF_SECOND, 3, 3, true)
    .toFormatter(Locale.ENGLISH);

具有小时值的时间码按预期解析，但具有小时值的时间码会抛出异常

java.time.format.DateTimeParseException: Text '20:33.123' could not be parsed at index 5

我假设，由于小时和分钟具有相同的模式，解析器从前面开始并捕获可选部分的分钟值。这样对吗，怎么解决？

Answer 1

我认为根本的问题在于它在错误的路径上卡住了。它看到一个长度为 2 的字段，我们知道它是分钟，但它认为是小时。一旦它认为可选部分存在，当我们知道它不存在时，整个事情注定要失败。

这可以通过将最短小时长度更改为 3 来证明。

.appendValue(TimecodeHour.HOUR, 3, 4, SignStyle.NEVER)

现在知道“20”不能是小时，因为小时至少需要3位数字。通过这个小改动，它现在可以正确解析，无论可选部分是否存在。

所以假设小时字段确实需要在 2 到 4 位数字之间，我认为您不得不实施解决方法。例如，计算字符串中冒号的数量并使用不同的格式化程序，具体取决于您运行进入的格式化程序。使用除冒号以外的不同分隔符来表示小时数也可以。

自推出以来，解析器逻辑在各种 Java 版本中经历了相当多的错误修复 - 正如您可以想象的那样，有很多潜在的边缘情况 - 所以我希望使用最新版本Java 会使这个问题消失。不幸的是，似乎即使在 Java 16 中，行为仍然相同。

Answer 2

尝试使用两个可选部分（一个有小时，另一个没有），如：

var formatter = new DateTimeFormatterBuilder()
    .optionalStart()
      .appendValue(HOUR_OF_DAY, 2, 4, SignStyle.NEVER).appendLiteral(":")
      .appendValue(MINUTE_OF_HOUR, 2).appendLiteral(":")
      .appendValue(SECOND_OF_MINUTE, 2)
    .optionalEnd()
    .optionalStart()
      .parseDefaulting(HOUR_OF_DAY, 0)
      .appendValue(MINUTE_OF_HOUR, 2).appendLiteral(":")
      .appendValue(SECOND_OF_MINUTE, 2)
    .optionalEnd()
    .toFormatter(Locale.ENGLISH);

_{我不知道TimecodeHour，所以我用HOUR_OF_DAY测试了}
^{（也太懒了包括分数)}

Answer 3

我开始怀疑 20:33.123 不是用来表示一天中午夜过后 20 到 21 分钟之间的时间。也许相当多的时间，比 20 分钟长一点。如果这是正确的，请使用 Duration。

遗憾的是 java.time 不包括解析和格式化 Duration 非 ISO 8601 格式的方法。这给我们留下了至少三个选择：

使用第三方库。 Time4J 提供了一个优雅的解决方案，见下文。 Joda-Time 有它的 PeriodFormatter class。 Apache 还可能提供解析和格式化持续时间的工具。
在使用 Duration.parse() 解析之前将您的字符串转换为 ISO 8601 格式。
编写您自己的解析器。

我在想我们对 3. 太懒了，而且 Joda-Time 已经过时了，所以我想在这里追求选项 1. 和 2.，选项 1. 在 Time4J 变体中。

适应 ISO 8601 的正则表达式

ISO 8601 格式起初感觉很不寻常，但很简单。 PT20M33.123S表示20分33.123秒。

public static Duration parse(String timeCodeString) {
    String iso8601 = timeCodeString
            .replaceFirst("^(\d{2,}):(\d{2}):(\d{2}\.\d{3})$", "PTHMS")
            .replaceFirst("^(\d{2}):(\d{2}\.\d{3})$", "PTMS");
    return Duration.parse(iso8601);
}

让我们试试看：

    System.out.println(parse("20:33.123"));
    System.out.println(parse("123:20:33.123"));

输出为：

PT20M33.123S
PT123H20M33.123S

我打给 replaceFirst 的两次电话首先处理有小时的案例，然后是没有小时的案例。因此，两者都会将与您的正则表达式匹配的字符串转换为 ISO 8601 格式。 Duration class 然后解析。如您所见，Duration 还打印回 ISO 8601 格式。不过，以不同的方式格式化也不错，搜索如何。

Time4J

Time4J 库提供了非常优雅的解决方案，与您的思路非常相似。我们真正需要的是这个格式化程序：

private static final Formatter<ClockUnit> TIME_CODE_PARSER 
        = Duration.formatter(ClockUnit.class, "[###hh:mm:ss.fff][mm:ss.fff]");

只需这样使用：

    System.out.println(TIME_CODE_PARSER.parse("20:33.123"));
    System.out.println(TIME_CODE_PARSER.parse("123:20:33.123"));

PT20M33,123000000S
PT123H20M33,123000000S

Time4J Duration class 也打印 ISO 8601 格式。似乎它使用逗号作为 ISO 8601 中首选的小数分隔符，并且当其中一些为 0 时，它也会在秒上打印 9 个小数。

格式模式字符串中###hh表示2到5位小时，fff表示秒的小数点后三位。

你的方法有什么问题吗？

你的方法有什么问题吗？ ChronoField.HOUR_OF_DAY 表示：一天中的小时。 0 是午夜，12 是中午，23 是接近一天结束的时候。这不是您想要的，所以是的，您使用了错误的方法。虽然您可能可以让它工作，但在您之后维护您的代码的任何人都会发现它令人困惑，并且可能很难根据您的意图进行修改。

在开头创建一个带有可选部分的 DateTimeFormater

Create a DateTimeFormater with an Optional Section at Beginning

java

datetime-format

java-time

适应 ISO 8601 的正则表达式

Time4J

你的方法有什么问题吗？

链接