断字词典​​如何用于断字?

How is a hyphenation dictionary used for hyphenation?

我读过有关 连字 的内容,我开始知道连字取决于 字典 ,我们将其用于特定的语。对于某些单词,Microsoft Office 的断字方式与 LibreOffice 不同。我试图打开字典hyph_en_US.dic,但无法理解其中的内容。 没明白的是,字典是怎么用的。

  1. 它是否包含要连字符的单词列表?
  2. 它是否包含决定如何断字的规则?

注意:我知道他们也使用算法来使断字更好,但是词典在多大程度上发挥作用?

任何帮助将不胜感激。

此致, Ankur Vashishtha

LibreOffice 与 TeX 和许多其他程序一样,使用 Franklin M. Liang 创建的断字算法。该算法使用模式匹配技术来查找单词中的断字点。包含模式的单独字典文件用于每种语言。根据Franklin M. Liang's thesis:

These patterns find 89% of the hyphens in a pocket dictionary word list, with essentially no error.

至于 Word 是如何做到的,很难说,因为它是专有软件。我的猜测是它没有使用这样的算法,而是使用了一个真正的字典,其中添加了 100% 正确的断字点。这可以解释为什么断字在 Word 中是不同的并且更准确。