使用 python-docx 识别 word 文档 .docx 文件中的封面

Identifying a cover page in word document .docx file using python-docx

我想知道是否有可能识别 .docx 文件的 xml 中可用于区分 word 文档封面的任何元素。

到目前为止,我发现表示封面的唯一可识别元素是分页符。

<w:br type="page"> 

然而,这是在整个文档中都可以找到的同一个分页符。

这道题的目的是希望如果word文档中有封面,则从第二页开始编号,否则从第一页开始编号。

  • 也许有一个段落样式只出现在封面上(可能是“标题”)
  • 也许封面是自己的部分,并且有一个 header 或与众不同的页脚
  • 可能有一个独特的 header 或页脚显示为“first-page-only”(三种 header/footer 类型之一)。
  • 文中可能有共同的字符串或字符串模式

这些是一些想法,但简而言之,您需要根据内容检测此类内容。 Word中没有区别于其他页面的“cover-page”的概念。