我在哪里可以找到 PDFMiner API 定义?
Where can I find PDFMiner API definitions?
是否有 Python PDFMiner package
的良好 API
定义?
例如,我可以从源代码中看到 LTText 包含 x0, y0, x1, y1
和一些文本,并且有一个 get_text()
方法 returns 文本 - 但只是为了直接访问 x0...?
在这种情况下,为什么要使用 _text 和 get_text()
包装文本?
该项目没有大量文档记录,因此您必须自己弄清楚。但是,some documentation 以主要 class 元素和结构的基本解释形式存在。
对于您的具体问题,LTText
的功能类似于抽象基础 class。一些继承自 LTText
的对象会覆盖 get_text
方法并执行更复杂的操作,例如 LTTextContainer
:
class LTTextContainer(LTExpandableContainer, LTText):
def __init__(self):
LTText.__init__(self)
LTExpandableContainer.__init__(self)
return
def get_text(self):
return ''.join(obj.get_text() for obj in self if isinstance(obj, LTText))
通常 getter 和 setter 方法包装功能,这些功能可能有助于在子 class 中覆盖或更新取决于输入的状态。例如,LTComponent.set_bbox
更新 self.bbox
.
之外的六个其他属性
是否有 Python PDFMiner package
的良好 API
定义?
例如,我可以从源代码中看到 LTText 包含 x0, y0, x1, y1
和一些文本,并且有一个 get_text()
方法 returns 文本 - 但只是为了直接访问 x0...?
在这种情况下,为什么要使用 _text 和 get_text()
包装文本?
该项目没有大量文档记录,因此您必须自己弄清楚。但是,some documentation 以主要 class 元素和结构的基本解释形式存在。
对于您的具体问题,LTText
的功能类似于抽象基础 class。一些继承自 LTText
的对象会覆盖 get_text
方法并执行更复杂的操作,例如 LTTextContainer
:
class LTTextContainer(LTExpandableContainer, LTText):
def __init__(self):
LTText.__init__(self)
LTExpandableContainer.__init__(self)
return
def get_text(self):
return ''.join(obj.get_text() for obj in self if isinstance(obj, LTText))
通常 getter 和 setter 方法包装功能,这些功能可能有助于在子 class 中覆盖或更新取决于输入的状态。例如,LTComponent.set_bbox
更新 self.bbox
.