如何将文件夹中文档中的文本添加到数组

How to add text from documents in a folder to an array

下午好。不幸的是,我没有找到一个简单问题的答案。我有一个文件夹。 PDF 格式。我可以使用 Pandas 打开一个文档并将其文本添加到数组中。其中第一列是文件夹名称,第二列是文档中的文本。但是如何对文件夹中的所有文档执行此操作?唉,我也不知道。

category text
test first document
test second document
test ...

假设您将已有的代码放入一个函数中,该函数接受一个文件名和您目前拥有的 DataFrame,那么很容易做您想做的事情:

import os
import pandas as pd

dataframe = pd.DataFrame()

files = os.listdir("[path/to/folder/]")

for file in files:
    dataframe = addFileToTable(file, dataFrame)

如果您不确定如何向数据框添加新行:

def addFileToTable(file, dataframe):
    # Convert PDF to array
    # ...

    row = {"category" : array[0], "text" : array[1]}
    df = dataframe.append(row, ignore_index = True)
    return df