用于删除文档中页码的正则表达式

Regular expression to remove page numbers in a document

我正在尝试使用 Microsoft Word 或 OpenOffice 和正则表达式来删除文档中的页码。我的文件是一本看起来像

的电子书
2
Words
More words.

More words.

More

3

words.

有些停顿在句子中间。我尝试在 Python 中执行此操作,但使用纯文本文件会删除我试图保留的格式,例如斜体。在 OpenOffice Writer 中,正则表达式:

^[0-9]$

将找到 0 到 9 之间的任何数字,尽管用 500 替换 9 仍然只能达到 9。但是,这只会获取数字本身,而不是段落中断。正则表达式

$

可以分段,但我不确定如何将两者结合起来,或者超越第 9 个。最终,我只想从书中删除这些页码及其分段。非常感谢任何帮助!

您可以使用 ^[0-9]+$|$ 来匹配更多数字并超过 9。

我想通了:)。首先获取此扩展名:http://extensions.openoffice.org/en/project/alternative-dialog-find-replace-writer-altsearch。然后使用正则表达式 \p^[0-9]+$\p