在 Apache NiFi 中读取 UCS-2 LE BOM 编码文件时出现问题

Problem while reading UCS-2 LE BOM encoded file in Apache NiFi

在 Apache NiFi 中,我尝试读取编码为 UCS-2 LE BOM 的文本文件,然后尝试将其转换为 JSON。但 Apache NiFi 正在将其视为单行。

我尝试使用 ConvertText 处理器转换为 UTF-8,但它不支持编码 UCS-2 LE BOM

有人知道如何使用 Apache NiFi 将此文件转换为 UTF-8 吗?

最简单的答案可能是使用 ExecuteScript 处理器并依赖 Groovy 的字符串编码。

不幸的是,ConvertCharacterSet 处理器只知道您的 JDK 支持的字符编码,尽管您可能会在 x-UTF-16LE-BOM 上取得成功(请参阅 Java 8 Character Sets)。

UCS-2 LE BOMUTF-16 的前身,因此请在 ConvertText 处理器中尝试 UTF-16