如何将文件夹中文档中的文本添加到数组
How to add text from documents in a folder to an array
下午好。不幸的是,我没有找到一个简单问题的答案。我有一个文件夹。 PDF 格式。我可以使用 Pandas 打开一个文档并将其文本添加到数组中。其中第一列是文件夹名称,第二列是文档中的文本。但是如何对文件夹中的所有文档执行此操作?唉,我也不知道。
category
text
test
first document
test
second document
test
...
假设您将已有的代码放入一个函数中,该函数接受一个文件名和您目前拥有的 DataFrame,那么很容易做您想做的事情:
import os
import pandas as pd
dataframe = pd.DataFrame()
files = os.listdir("[path/to/folder/]")
for file in files:
dataframe = addFileToTable(file, dataFrame)
如果您不确定如何向数据框添加新行:
def addFileToTable(file, dataframe):
# Convert PDF to array
# ...
row = {"category" : array[0], "text" : array[1]}
df = dataframe.append(row, ignore_index = True)
return df
下午好。不幸的是,我没有找到一个简单问题的答案。我有一个文件夹。 PDF 格式。我可以使用 Pandas 打开一个文档并将其文本添加到数组中。其中第一列是文件夹名称,第二列是文档中的文本。但是如何对文件夹中的所有文档执行此操作?唉,我也不知道。
category | text |
---|---|
test | first document |
test | second document |
test | ... |
假设您将已有的代码放入一个函数中,该函数接受一个文件名和您目前拥有的 DataFrame,那么很容易做您想做的事情:
import os
import pandas as pd
dataframe = pd.DataFrame()
files = os.listdir("[path/to/folder/]")
for file in files:
dataframe = addFileToTable(file, dataFrame)
如果您不确定如何向数据框添加新行:
def addFileToTable(file, dataframe):
# Convert PDF to array
# ...
row = {"category" : array[0], "text" : array[1]}
df = dataframe.append(row, ignore_index = True)
return df