获取任何模糊字符 set/encoding(例如 ibm-943_P14A-2000)的字符映射

Getting a character map of any obscure character set/encoding (e.g. ibm-943_P14A-2000)

最近我们的软件遇到了一个问题,我们的 Shift-JIS 编码无法识别某些晦涩的汉字(汉字)。我做了一个算法来读取任何 Shift-JIS 字符串以尝试找到任何 "out of bounds" 汉字并将字符串切换为 UTF-8(它有更多字符,但使用更多 space)。

为了找到汉字不会被涵盖的内容,我需要得到 ibm-943_P14A-2000 编码 的字符映射表。

去哪里寻找这些字符集的映射? 通过网络搜索很容易找到 UTF8 查找等,但我根本找不到 chart/table/file 什么值对应于这种编码中的什么值。

如果你能指出任何方向,无论多么晦涩,我都会非常感激。

ICU 项目有相当大的一组字符集映射表,包括ibm-943_P14A-1999. The difference between '1999' and '2000' is explained in this thread—and you can check out older versions of the ICU source code for the old table. The format of the table is described in the ICU User Guide

至于原始字符映射(IBM-943的字符集),它们是documented here