如何识别docx文件中的文本位置?

How to identify text position in docx file?

我是 Docx 提取的新手,我正在尝试识别页面中的标题和段落。虽然我能够从运行、段落和 styles.xml 中检索到字体信息,但我无法准确找到文本定位信息,或者我没有在正确的位置搜索

我浏览了 python-docx object 并看到 paragraph_format object 其中有 alignmentleft_indent 等...但是很多段落将这些值设置为 None,根据文档,这些值是继承的。

我的期望是每个段落都有一些数值,从左到右描述它们的开始和结束位置。如果没记错的话应该是 left-indent 和 right-indent。

如果 python-docx 段落 object 中没有这些值,我在哪里可以找到这些值?哪些 xml 文件将包含这些数据?

段落位置的继承值将是页边距。没有左缩进或右缩进的段落从一个页边距延伸到另一页边距,任何缩进都相对于这些边距。

(页面)页边距是每个部分的属性,可能会从一个部分更改到另一个部分(尽管通常不会)。
https://python-docx.readthedocs.io/en/latest/api/section.html#id1