如何将文件夹中文档中的文本添加到数组

Question

下午好。不幸的是，我没有找到一个简单问题的答案。我有一个文件夹。 PDF 格式。我可以使用 Pandas 打开一个文档并将其文本添加到数组中。其中第一列是文件夹名称，第二列是文档中的文本。但是如何对文件夹中的所有文档执行此操作？唉，我也不知道。

category	text
test	first document
test	second document
test	...

Answer 1

假设您将已有的代码放入一个函数中，该函数接受一个文件名和您目前拥有的 DataFrame，那么很容易做您想做的事情：

import os
import pandas as pd

dataframe = pd.DataFrame()

files = os.listdir("[path/to/folder/]")

for file in files:
    dataframe = addFileToTable(file, dataFrame)

如果您不确定如何向数据框添加新行：

def addFileToTable(file, dataframe):
    # Convert PDF to array
    # ...

    row = {"category" : array[0], "text" : array[1]}
    df = dataframe.append(row, ignore_index = True)
    return df

如何将文件夹中文档中的文本添加到数组

How to add text from documents in a folder to an array

python

dataset

pandas