table 提取：将包含文件名和原始文件路径的列添加到 df

Question

我需要从多个 docx 报告文档中提取相同的 table。在列表 'targets_in_dir' 中，我以

格式存储了所有带有路径的文件名

'C:\directory\subdirectory\filename1.docx'

下面的代码完美地从文档中抓取 table 并将键正确分配给列。

import pandas as pd
import docx
from docx.api import Document

document = Document(targets_in_dir[1])
table = document.tables[2]

data = []

keys = None
for i, row in enumerate(table.rows):
    text = (cell.text for cell in row.cells)

    if i == 0:
        keys = tuple(text)
        continue
    row_data = dict(zip(keys, text))
    data.append(row_data)
    
df = pd.DataFrame(data)
df['report'] = targets_in_dir[1]
print (targets_in_dir[1])

我的问题： 出于跟踪目的，我想在最终的 df 中添加一列，其中每一行都添加了提取行的文件名。我试着用

行来做

df['report'] = targets_in_dir[1]

但奇怪的是它只添加来自 'data_1' 的数据而不是文件名和路径！

report	data_1
C:\directory\subdirectory\filename1.docx	Cumarin
C:\directory\subdirectory\filename1.docx	Piperacin

Answer 1

与此同时，我使用以下代码行自己找到了解决方案。我只是添加 str

df['report'] = str(targets_in_dir[1])

table 提取：将包含文件名和原始文件路径的列添加到 df

table extraction: adding column with file name and path of origin file to df

python

docx

pandas