使用 python-docx 识别 word 文档 .docx 文件中的封面
Identifying a cover page in word document .docx file using python-docx
我想知道是否有可能识别 .docx 文件的 xml 中可用于区分 word 文档封面的任何元素。
到目前为止,我发现表示封面的唯一可识别元素是分页符。
<w:br type="page">
然而,这是在整个文档中都可以找到的同一个分页符。
这道题的目的是希望如果word文档中有封面,则从第二页开始编号,否则从第一页开始编号。
- 也许有一个段落样式只出现在封面上(可能是“标题”)
- 也许封面是自己的部分,并且有一个 header 或与众不同的页脚
- 可能有一个独特的 header 或页脚显示为“first-page-only”(三种 header/footer 类型之一)。
- 文中可能有共同的字符串或字符串模式
这些是一些想法,但简而言之,您需要根据内容检测此类内容。 Word中没有区别于其他页面的“cover-page”的概念。
我想知道是否有可能识别 .docx 文件的 xml 中可用于区分 word 文档封面的任何元素。
到目前为止,我发现表示封面的唯一可识别元素是分页符。
<w:br type="page">
然而,这是在整个文档中都可以找到的同一个分页符。
这道题的目的是希望如果word文档中有封面,则从第二页开始编号,否则从第一页开始编号。
- 也许有一个段落样式只出现在封面上(可能是“标题”)
- 也许封面是自己的部分,并且有一个 header 或与众不同的页脚
- 可能有一个独特的 header 或页脚显示为“first-page-only”(三种 header/footer 类型之一)。
- 文中可能有共同的字符串或字符串模式
这些是一些想法,但简而言之,您需要根据内容检测此类内容。 Word中没有区别于其他页面的“cover-page”的概念。