使用 Python pptx 获取图像文件名
Get image file names with Python pptx
我正在尝试编写一个脚本来打开用户指定的 ppt、读取它并查找图像文件名。我使用的是 python pptx 包,因为这可以让我实际打开 ppt 文件。我正在尝试浏览每张幻灯片并检查该幻灯片是否有图像,但我不知道如何使用 pptx 包执行此操作,而且关于此 imo 的文档也不是很清楚。
所以在深入研究文档之后,我发现这种方法可以完成工作:
file = open(fileName, 'rb')
ppt = Presentation(file)
images = []
for slide in ppt.slides:
for shape in slide.shapes:
print(shape.image)
if shape.image:
if isCorrectImageType(shape.image):
print(shape.image.filename)
file.close()
def isCorrectImageType(imageShape):
imgExtension = imageShape.content_type
filePattern = '(.jpg$|.jpeg$|.png$|.gif$)'
image = re.search(filePattern, imgExtension)
print(image.group(0))
return image.group(0)
这有效,但是 return 文件名不正确。它 returns image.png 而文件名是 myfile.png
如果图像是从文件插入的,则图像文件名仅存储在 XML 中。如果图像是从二进制流导入的(通过 python-pptx
之类的程序),则没有可用的文件名,因此会使用 image.{ext}
形式。使用 PowerPoint 将图像粘贴到位时也是如此。
因此文件名不一定总是可用。
但是,当已经记录时,在图片形状的descr
属性中可用:
from pptx.enum.shapes import MSO_SHAPE_TYPE
for shape in slide.shapes:
if shape.shape_type != MSO_SHAPE_TYPE.PICTURE:
continue
picture = shape
print(picture._pic.nvPicPr.cNvPr.get('descr'))
此代码访问如下所示的 XML:
<p:pic>
<p:nvPicPr>
<p:cNvPr id="6" name="Picture 5" descr="python-logo.gif"/>
<p:cNvPicPr/>
<p:nvPr/>
</p:nvPicPr>
...
并且应该 return 值 'python-logo.gif'
.
我正在尝试编写一个脚本来打开用户指定的 ppt、读取它并查找图像文件名。我使用的是 python pptx 包,因为这可以让我实际打开 ppt 文件。我正在尝试浏览每张幻灯片并检查该幻灯片是否有图像,但我不知道如何使用 pptx 包执行此操作,而且关于此 imo 的文档也不是很清楚。
所以在深入研究文档之后,我发现这种方法可以完成工作:
file = open(fileName, 'rb')
ppt = Presentation(file)
images = []
for slide in ppt.slides:
for shape in slide.shapes:
print(shape.image)
if shape.image:
if isCorrectImageType(shape.image):
print(shape.image.filename)
file.close()
def isCorrectImageType(imageShape):
imgExtension = imageShape.content_type
filePattern = '(.jpg$|.jpeg$|.png$|.gif$)'
image = re.search(filePattern, imgExtension)
print(image.group(0))
return image.group(0)
这有效,但是 return 文件名不正确。它 returns image.png 而文件名是 myfile.png
如果图像是从文件插入的,则图像文件名仅存储在 XML 中。如果图像是从二进制流导入的(通过 python-pptx
之类的程序),则没有可用的文件名,因此会使用 image.{ext}
形式。使用 PowerPoint 将图像粘贴到位时也是如此。
因此文件名不一定总是可用。
但是,当已经记录时,在图片形状的descr
属性中可用:
from pptx.enum.shapes import MSO_SHAPE_TYPE
for shape in slide.shapes:
if shape.shape_type != MSO_SHAPE_TYPE.PICTURE:
continue
picture = shape
print(picture._pic.nvPicPr.cNvPr.get('descr'))
此代码访问如下所示的 XML:
<p:pic>
<p:nvPicPr>
<p:cNvPr id="6" name="Picture 5" descr="python-logo.gif"/>
<p:cNvPicPr/>
<p:nvPr/>
</p:nvPicPr>
...
并且应该 return 值 'python-logo.gif'
.