在 Apache NiFi 中读取 UCS-2 LE BOM 编码文件时出现问题
Problem while reading UCS-2 LE BOM encoded file in Apache NiFi
在 Apache NiFi 中,我尝试读取编码为 UCS-2 LE BOM
的文本文件,然后尝试将其转换为 JSON。但 Apache NiFi 正在将其视为单行。
我尝试使用 ConvertText 处理器转换为 UTF-8
,但它不支持编码 UCS-2 LE BOM
。
有人知道如何使用 Apache NiFi 将此文件转换为 UTF-8
吗?
最简单的答案可能是使用 ExecuteScript
处理器并依赖 Groovy 的字符串编码。
不幸的是,ConvertCharacterSet
处理器只知道您的 JDK 支持的字符编码,尽管您可能会在 x-UTF-16LE-BOM
上取得成功(请参阅 Java 8 Character Sets)。
UCS-2 LE BOM
是 UTF-16
的前身,因此请在 ConvertText 处理器中尝试 UTF-16
。
在 Apache NiFi 中,我尝试读取编码为 UCS-2 LE BOM
的文本文件,然后尝试将其转换为 JSON。但 Apache NiFi 正在将其视为单行。
我尝试使用 ConvertText 处理器转换为 UTF-8
,但它不支持编码 UCS-2 LE BOM
。
有人知道如何使用 Apache NiFi 将此文件转换为 UTF-8
吗?
最简单的答案可能是使用 ExecuteScript
处理器并依赖 Groovy 的字符串编码。
不幸的是,ConvertCharacterSet
处理器只知道您的 JDK 支持的字符编码,尽管您可能会在 x-UTF-16LE-BOM
上取得成功(请参阅 Java 8 Character Sets)。
UCS-2 LE BOM
是 UTF-16
的前身,因此请在 ConvertText 处理器中尝试 UTF-16
。