我在哪里可以获得规范化不同的 unicode 示例?

Where can I get examples of unicode that normalizes differently?

我正在添加另一个 unicode 规范化问题,因为我花了很多时间寻找但找不到我需要的东西。我有一种情况需要规范化 unicode 以检查字符串是否等效,但我不明白选择不同规范形式的后果。我想做的是得到一些示例 valid unicode 输入,它以不同的方式标准化,这样我就可以尝试不同的选项,但我不知道如何制作或在哪里可以制作找到它。 This answer 有一些示例数据,但这些示例侧重于格式错误或无效的 unicode 字符串(我想?也许我不知道我在看什么)。我需要一组用户期望等效的字符串,一个接口将接受为有效的,并且在规范化之前它们不相等。让我们说 UTF-8 是具体的,但我很欣赏多种编码的例子。如果有依赖于实现的答案,我正在使用 python,但我想其他人可能会喜欢不限于 python.

的答案

我在哪里可以获得在某些规范形式下等效的示例 unicode 字符串,而不是其他规范形式,最好展示所有规范化有何不同?

https://unicode.org/reports/tr15/#Norm_Forms 有大量的示例,以及大量的解释。