希伯来字符的 Unicode 组合 Javascript

Unicode Composition on Hebrew Characters Javascript

问题:从this列表来看,我理解正确吗,两个希伯来字符bet(U+05D1)和dagesh(U+05BC)不能normalized/composed 用 dagesh (U+FB31) 下注?

上下文:我知道当希伯来文本被规范化时,它通常不适合历史语言学。我有一个 package 将字符按首选方式排序,但我将能够重新组合它们:

const sequenced = 'בָּ'; // bet + dagesh + qamets — the preferred sequencing
const presentationForm = 'בָּ'; // bet with dagesh + qamets
if (sequenced.normalize("NFC") === presentationForm){
    console.log('Want these two to match...');
}

其他资源:

您的理解是正确的。某些序列被排除在 NFC 下的(重新)组合之外。在这种情况下,分解后的版本始终是规范形式。

这并不意味着您不能使用组合代码点,但它不会在任何形式的规范化后继续存在。