更正文本中分成音节的单词

Correcting words broken into syllables in a text

我使用 Python 将 .pdf 文件转换为 .txt。通过删除特殊字符或某些我不想要的字符来“清理”文本相当容易,但是我有一个有趣的问题,除了手动之外我还没有设法解决。

文本是德语,有些单词被分解成音节(它们可能与原始 .pdf 中的音节一样)。所以我有像

这样的东西
Das ist die Belastung eines Grundstücks mit der Haftung für bestimmte, in der Regel wiederkeh-
rende Leistungen des jeweiligen Grundeigentümers.

只删除连字符不是一个好主意,因为有时它们是有意义的,例如 Verkehrs- und Tarifverbund Stuttgart.

有什么办法可以避免手动操作吗?几乎每句话都会出现。

如果单词因为太长而被拆分并且在行尾,您应该可以删除 "-\n"(用 "" 替换它)。

如果您的文档使用其他特殊字符来指示行尾,您需要将 \n 替换为该字符。