使用 Python pptx 获取图像文件名

Get image file names with Python pptx

我正在尝试编写一个脚本来打开用户指定的 ppt、读取它并查找图像文件名。我使用的是 python pptx 包,因为这可以让我实际打开 ppt 文件。我正在尝试浏览每张幻灯片并检查该幻灯片是否有图像,但我不知道如何使用 pptx 包执行此操作,而且关于此 imo 的文档也不是很清楚。

所以在深入研究文档之后,我发现这种方法可以完成工作:

file = open(fileName, 'rb')
ppt = Presentation(file)
images = []

for slide in ppt.slides:
    for shape in slide.shapes:
        print(shape.image)
        if shape.image:
            if isCorrectImageType(shape.image):
                print(shape.image.filename)
file.close()

def isCorrectImageType(imageShape):
    imgExtension = imageShape.content_type
    filePattern = '(.jpg$|.jpeg$|.png$|.gif$)'
    image = re.search(filePattern, imgExtension)
    print(image.group(0))

    return image.group(0)

这有效,但是 return 文件名不正确。它 returns image.png 而文件名是 myfile.png

如果图像是从文件插入的,则图像文件名仅存储在 XML 中。如果图像是从二进制流导入的(通过 python-pptx 之类的程序),则没有可用的文件名,因此会使用 image.{ext} 形式。使用 PowerPoint 将图像粘贴到位时也是如此。

因此文件名不一定总是可用。

但是,当已经记录时,在图片形状的descr属性中可用:

from pptx.enum.shapes import MSO_SHAPE_TYPE

for shape in slide.shapes:
    if shape.shape_type != MSO_SHAPE_TYPE.PICTURE:
        continue
    picture = shape
    print(picture._pic.nvPicPr.cNvPr.get('descr'))

此代码访问如下所示的 XML:

<p:pic>
  <p:nvPicPr>
    <p:cNvPr id="6" name="Picture 5" descr="python-logo.gif"/>
    <p:cNvPicPr/>
    <p:nvPr/>
  </p:nvPicPr>
  ...

并且应该 return 值 'python-logo.gif'.