我在哪里可以找到 PDFMiner API 定义?

Where can I find PDFMiner API definitions?

是否有 Python PDFMiner package 的良好 API 定义?

例如,我可以从源代码中看到 LTText 包含 x0, y0, x1, y1 和一些文本,并且有一个 get_text() 方法 returns 文本 - 但只是为了直接访问 x0...?

在这种情况下,为什么要使用 _text 和 get_text() 包装文本?

该项目没有大量文档记录,因此您必须自己弄清楚。但是,some documentation 以主要 class 元素和结构的基本解释形式存在。

对于您的具体问题,LTText 的功能类似于抽象基础 class。一些继承自 LTText 的对象会覆盖 get_text 方法并执行更复杂的操作,例如 LTTextContainer:

class LTTextContainer(LTExpandableContainer, LTText):
    def __init__(self):
        LTText.__init__(self)
        LTExpandableContainer.__init__(self)
        return

    def get_text(self):
        return ''.join(obj.get_text() for obj in self if isinstance(obj, LTText))

通常 getter 和 setter 方法包装功能,这些功能可能有助于在子 class 中覆盖或更新取决于输入的状态。例如,LTComponent.set_bbox 更新 self.bbox.

之外的六个其他属性