如何修复 OCR table 内容中中间带有数字的虚线?

How to fix broken lines with numbers in middle in OCR table of contents?

ORC table 内容中有一些虚线,在\t 之后和\n 之前可能有也可能没有数字。

输入:

    9.1 The Euclidean Group in Two-Dimensional  152
    Space E2
CHAPTER 10: THE LORENTZ AND POINCARÉ GROUPS,    
    AND SPACE-TIME SYMMETRIES   173

如果一个数字夹在两个字母之间(示例中的152),则它是上一节的页码,应将其删除。如果在它后面是另一个数字(下一节的编号),那么它就是正确的页码(此处为 173)并且应该保留。这是所需的输出:

    9.1 The Euclidean Group in Two-Dimensional Space E2
CHAPTER 10: THE LORENTZ AND POINCARÉ GROUPS, AND SPACE-TIME SYMMETRIES  173

我的尝试:

([a-zA-Z])(\t[0-9]*\n\t)((?![P])[A-Z])

但 npp 一直说它找不到文本,即使它在 https://www.regextester.com 中工作正常。如何恢复正常?

您可以使用

(\S)\t[0-9]*\R\t+

并替换为 </code>(第 1 组值占位符)。</p> <p><strong>详情</strong></p> <ul> <li><code>(\S) - 第 1 组:任何非空白字符

  • \t - 一个选项卡
  • [0-9]* - 0+ 位
  • \R - 换行序列
  • \t+ - 1 个或多个制表符(或 \h+ - 1+ 个水平空格)
  • REGEX DEMO