pdfrw - 用 python 填充 pdf,对多个页面使用切片时遇到问题
pdfrw - fill pdf with python, trouble using slice for multiple pages
您好,我在使用 python 的 pdfrw 时遇到问题。我正在尝试用 pdfrw 填充 PDF,我可以填充一页。 obj.pages 将只接受整数而不接受切片。目前它只会填满指定的一页。当我在 obj.page 中输入第二页时,它只填充第二页,依此类推。我需要填充四页。
import pdfrw
TEMPLATE_PATH = 'temppath.pdf'
OUTPUT_PATH = 'outpath.pdf'
ANNOT_KEY = '/Annots'
ANNOT_FIELD_KEY = '/T'
ANNOT_VAL_KEY = '/V'
ANNOT_RECT_KEY = '/Rect'
SUBTYPE_KEY = '/Subtype'
WIDGET_SUBTYPE_KEY = '/Widget'
def write_fillable_pdf(input_pdf_path, output_pdf_path, data_dict):
template_pdf = pdfrw.PdfReader(input_pdf_path)
annotations = template_pdf.pages[:3][ANNOT_KEY]
for annotation in annotations:
if annotation[SUBTYPE_KEY] == WIDGET_SUBTYPE_KEY:
if annotation[ANNOT_FIELD_KEY]:
key = annotation[ANNOT_FIELD_KEY][1:-1]
if key in data_dict.keys():
annotation.update(
pdfrw.PdfDict(V='{}'.format(data_dict[key]))
)
pdfrw.PdfWriter().write(output_pdf_path, template_pdf)
data_dict = {}
if __name__ == '__main__':
write_fillable_pdf(TEMPLATE_PATH, OUTPUT_PATH, data_dict)
当我使用切片时
annotations = template_pdf.pages[:3][ANNOT_KEY]
returns错误
TypeError: list indices must be integers or slices, not str
否则它只会运行一页
annotations = template_pdf.pages[0][ANNOT_KEY]
或
annotations = template_pdf.pages[1][ANNOT_KEY]
将运行指定的页面
我遇到了类似的问题:
How to add text to the second page in pdf with Python, Reportlab and pdfrw?
从这篇文章开始
https://bostata.com/post/how_to_populate_fillable_pdfs_with_python/
您在表达式 pages[:3][ANNOT_KEY]
中看到的异常不会发生,因为采用 slice pages[:3]
时出现问题 - 工作正常.但是列表的一部分是一个列表,语法 [ANNOT_KEY]
尝试使用 ANNOT_KEY 索引到这个新列表中,这是一个字符串。
但是不要相信我的话;分割线:
annotations = template_pdf.pages[:3][ANNOT_KEY]
分成两行:
foobar = template_pdf.pages[:3]
annotations = foobar[ANNOT_KEY]
并查看错误发生的位置。
无论如何,正如我在上面的评论中提到的,您也不应该使用字符串来索引 PdfDicts——使用 PdfStrings,或者简单地使用正确的属性访问它们。
我个人不使用注释,所以我不确定你到底想完成什么,但如果给定注释总是一个列表,你可以这样做:
annotations = []
for page in template_pdf.pages[:3]:
annotations.extend(page.Annots or [])
(上面 or []
表达式的目的是处理页面没有 /Annots 的情况——因为 pdfrw 将 return None
用于不存在的字典键(以匹配 PDF 词典的语义行为),以确保您没有尝试使用 None
.)
扩展列表
如果多个页面可以共享任何注释,您可能还想对列表进行重复数据删除。
免责声明:我是 pdfrw 的主要作者。
您好,我在使用 python 的 pdfrw 时遇到问题。我正在尝试用 pdfrw 填充 PDF,我可以填充一页。 obj.pages 将只接受整数而不接受切片。目前它只会填满指定的一页。当我在 obj.page 中输入第二页时,它只填充第二页,依此类推。我需要填充四页。
import pdfrw
TEMPLATE_PATH = 'temppath.pdf'
OUTPUT_PATH = 'outpath.pdf'
ANNOT_KEY = '/Annots'
ANNOT_FIELD_KEY = '/T'
ANNOT_VAL_KEY = '/V'
ANNOT_RECT_KEY = '/Rect'
SUBTYPE_KEY = '/Subtype'
WIDGET_SUBTYPE_KEY = '/Widget'
def write_fillable_pdf(input_pdf_path, output_pdf_path, data_dict):
template_pdf = pdfrw.PdfReader(input_pdf_path)
annotations = template_pdf.pages[:3][ANNOT_KEY]
for annotation in annotations:
if annotation[SUBTYPE_KEY] == WIDGET_SUBTYPE_KEY:
if annotation[ANNOT_FIELD_KEY]:
key = annotation[ANNOT_FIELD_KEY][1:-1]
if key in data_dict.keys():
annotation.update(
pdfrw.PdfDict(V='{}'.format(data_dict[key]))
)
pdfrw.PdfWriter().write(output_pdf_path, template_pdf)
data_dict = {}
if __name__ == '__main__':
write_fillable_pdf(TEMPLATE_PATH, OUTPUT_PATH, data_dict)
当我使用切片时
annotations = template_pdf.pages[:3][ANNOT_KEY]
returns错误
TypeError: list indices must be integers or slices, not str
否则它只会运行一页
annotations = template_pdf.pages[0][ANNOT_KEY]
或
annotations = template_pdf.pages[1][ANNOT_KEY]
将运行指定的页面
我遇到了类似的问题: How to add text to the second page in pdf with Python, Reportlab and pdfrw?
从这篇文章开始 https://bostata.com/post/how_to_populate_fillable_pdfs_with_python/
您在表达式 pages[:3][ANNOT_KEY]
中看到的异常不会发生,因为采用 slice pages[:3]
时出现问题 - 工作正常.但是列表的一部分是一个列表,语法 [ANNOT_KEY]
尝试使用 ANNOT_KEY 索引到这个新列表中,这是一个字符串。
但是不要相信我的话;分割线:
annotations = template_pdf.pages[:3][ANNOT_KEY]
分成两行:
foobar = template_pdf.pages[:3]
annotations = foobar[ANNOT_KEY]
并查看错误发生的位置。
无论如何,正如我在上面的评论中提到的,您也不应该使用字符串来索引 PdfDicts——使用 PdfStrings,或者简单地使用正确的属性访问它们。
我个人不使用注释,所以我不确定你到底想完成什么,但如果给定注释总是一个列表,你可以这样做:
annotations = []
for page in template_pdf.pages[:3]:
annotations.extend(page.Annots or [])
(上面 or []
表达式的目的是处理页面没有 /Annots 的情况——因为 pdfrw 将 return None
用于不存在的字典键(以匹配 PDF 词典的语义行为),以确保您没有尝试使用 None
.)
如果多个页面可以共享任何注释,您可能还想对列表进行重复数据删除。
免责声明:我是 pdfrw 的主要作者。