UTF-8 到 CP864(阿拉伯语)转换
UTF-8 to CP864 (arabic) conversion
我有以下任务:一些用 UTF-8 编写的混合 latin/arabic 中的文本需要转换为使用 POS 打印机打印,它使用古老的 one-byte code page 864.
text.getBytes("ibm-864")
突然显示许多问号而不是阿拉伯字符,在挖掘代码后我了解到转换 table 有一些不同版本的阿拉伯字符用于映射到 ibm-864(某处在 FExx 范围内,而不是我文本中的 06xx。
我正在寻找一些代码或库,它可以将阿拉伯语 unicode 转换为 cp864,最好映射到阿拉伯语字符的相应形式(在 cp864 中,某些字符有孤立的、初始的、中间的和最终的形式) ,甚至可能为 RTL 处理反向,因为我怀疑硬件是否自动支持它。
我知道这是一项非常具体的任务,但为什么不试一试呢?我也知道如何实现这个,但试图找到一辆现成的自行车:)
有人吗?
另一种可能的解决方案:可以将 unicode 阿拉伯语从范围 U+0600 - U+06FF Arabic
翻译成范围 U+FE70 - U+FF6F Arabic Presentation Forms-B
的库。然后我可以安全地在 cp864 中获取我的字节。有人见过类似的东西吗?
要将阿拉伯语文本输出到相对笨拙的输出设备,您需要做几件事:
- 使用 Unicode 双向算法 (UBA),更广为人知的 Bidi,将文本分成不同方向的块。
- 镜像需要镜像的字符(例如:在LTR/RTL块内时左括号指向不同的方向)
- 由于输出设备是哑的,您需要将字符更改为它们的位置形式,并在需要的地方应用连字(LAM + ALEF 有一个连字)。这是由一款名为 Arabic Shaper 的软件完成的。
- 您需要根据方向性对文本重新排序。
- 由于 CP864 没有所有字符的所有位置形式,您需要转换为后备形式,将一些最终形式转换为孤立形式,将一些中间形式转换为初始形式,并将一些初始形式转换为孤立形式形式。文本不会像有适当的形式那样很好地连接,但它会相对接近。
在 Java,ICU 库允许您这样做:
- ICU 的 Bidi 可以负责分块、镜像和重新排序。重新排序可以在整形之前完成,因为 ICU 的 ArabicShaping 支持以逻辑(预重新排序)和视觉(post-重新排序)顺序处理文本。
- ICU 的 ArabicShaping 可以负责塑造文本,将其映射到适当的表示形式(你谈到的 FExx 范围,这不是正常使用的,它只是用于与遗留接口software/hardware,在本例中是理解 CP864 但不理解 Unicode 的打印机)。
- ICU 的 CharsetProvider 和 CharsetEncoder 可用于使用回退(非往返)转换将不在输出字符集中的字符转换为 CP864,在这种情况下为最终→隔离,中间→初始,...表格。
我有以下任务:一些用 UTF-8 编写的混合 latin/arabic 中的文本需要转换为使用 POS 打印机打印,它使用古老的 one-byte code page 864.
text.getBytes("ibm-864")
突然显示许多问号而不是阿拉伯字符,在挖掘代码后我了解到转换 table 有一些不同版本的阿拉伯字符用于映射到 ibm-864(某处在 FExx 范围内,而不是我文本中的 06xx。
我正在寻找一些代码或库,它可以将阿拉伯语 unicode 转换为 cp864,最好映射到阿拉伯语字符的相应形式(在 cp864 中,某些字符有孤立的、初始的、中间的和最终的形式) ,甚至可能为 RTL 处理反向,因为我怀疑硬件是否自动支持它。
我知道这是一项非常具体的任务,但为什么不试一试呢?我也知道如何实现这个,但试图找到一辆现成的自行车:)
有人吗?
另一种可能的解决方案:可以将 unicode 阿拉伯语从范围 U+0600 - U+06FF Arabic
翻译成范围 U+FE70 - U+FF6F Arabic Presentation Forms-B
的库。然后我可以安全地在 cp864 中获取我的字节。有人见过类似的东西吗?
要将阿拉伯语文本输出到相对笨拙的输出设备,您需要做几件事:
- 使用 Unicode 双向算法 (UBA),更广为人知的 Bidi,将文本分成不同方向的块。
- 镜像需要镜像的字符(例如:在LTR/RTL块内时左括号指向不同的方向)
- 由于输出设备是哑的,您需要将字符更改为它们的位置形式,并在需要的地方应用连字(LAM + ALEF 有一个连字)。这是由一款名为 Arabic Shaper 的软件完成的。
- 您需要根据方向性对文本重新排序。
- 由于 CP864 没有所有字符的所有位置形式,您需要转换为后备形式,将一些最终形式转换为孤立形式,将一些中间形式转换为初始形式,并将一些初始形式转换为孤立形式形式。文本不会像有适当的形式那样很好地连接,但它会相对接近。
在 Java,ICU 库允许您这样做:
- ICU 的 Bidi 可以负责分块、镜像和重新排序。重新排序可以在整形之前完成,因为 ICU 的 ArabicShaping 支持以逻辑(预重新排序)和视觉(post-重新排序)顺序处理文本。
- ICU 的 ArabicShaping 可以负责塑造文本,将其映射到适当的表示形式(你谈到的 FExx 范围,这不是正常使用的,它只是用于与遗留接口software/hardware,在本例中是理解 CP864 但不理解 Unicode 的打印机)。
- ICU 的 CharsetProvider 和 CharsetEncoder 可用于使用回退(非往返)转换将不在输出字符集中的字符转换为 CP864,在这种情况下为最终→隔离,中间→初始,...表格。