如何从 python 文件夹中的 pdf 中提取文本并将它们保存在数据框中?
How to extract text from pdfs in folders with python and save them in dataframe?
我有很多文件夹,每个文件夹都有几个 pdf 文件(还有其他文件类型,如 .xlsx 或 .doc)。我的目标是为每个文件夹提取 pdf 文本并创建一个数据框,其中每条记录都是“文件夹名称”,每列以字符串形式表示该文件夹中每个 pdf 文件的文本内容。
我设法使用 tika
包(下面的代码)从一个 pdf 文件中提取文本。但不能循环迭代文件夹或其他文件夹中的其他 pdf,从而构建结构化数据框。
# import parser object from tike
from tika import parser
# opening pdf file
parsed_pdf = parser.from_file("ducument_1.pdf")
# saving content of pdf
# you can also bring text only, by parsed_pdf['text']
# parsed_pdf['content'] returns string
data = parsed_pdf['content']
# Printing of content
print(data)
# <class 'str'>
print(type(data))
所需的输出应如下所示:
Folder_Name
pdf1
pdf2
17534
text of the pdf1
text of the pdf 2
63546
text of the pdf1
text of the pdf1
26374
text of the pdf1
-
在 unix 上获得所有 pdf 的列表非常容易。
import os
# saves all pdf in a string.
a = os.popen("du -a|awk '{print }'|grep '.*\.pdf$'").read()[2:-1]
print(a)
在我的电脑上输出是:
[luca@artix tmp]$ python3 forum.py
a.pdf
./foo/test.pdf
你可以做类似的事情
for line in a.split('\n'):
print(line, line.split('/'))
你会知道pdf的文件夹。希望对你有所帮助
如果要查找目录及其子目录中的所有 PDF,可以使用 os.listdir
和 glob
,请参阅 Recursive sub folder search and return files in a list python。我选择了稍微长一点的表格,这样初学者更容易理解正在发生的事情
然后,对于每个文件,调用 Apache Tika,并保存到 Pandas DataFrame
的下一行
#!/usr/bin/python3
import os, glob
from tika import parser
from pandas import DataFrame
# What file extension to find, and where to look from
ext = "*.pdf"
PATH = "."
# Find all the files with that extension
files = []
for dirpath, dirnames, filenames in os.walk(PATH):
files += glob.glob(os.path.join(dirpath, ext))
# Create a Pandas Dataframe to hold the filenames and the text
df = DataFrame(columns=("filename","text"))
# Process each file in turn, parsing with Tika and storing in the dataframe
for idx, filename in enumerate(files):
data = parser.from_file(filename)
text = data["content"]
df.loc[idx] = [filename, text]
# For debugging, print what we found
print(df)
我有很多文件夹,每个文件夹都有几个 pdf 文件(还有其他文件类型,如 .xlsx 或 .doc)。我的目标是为每个文件夹提取 pdf 文本并创建一个数据框,其中每条记录都是“文件夹名称”,每列以字符串形式表示该文件夹中每个 pdf 文件的文本内容。
我设法使用 tika
包(下面的代码)从一个 pdf 文件中提取文本。但不能循环迭代文件夹或其他文件夹中的其他 pdf,从而构建结构化数据框。
# import parser object from tike
from tika import parser
# opening pdf file
parsed_pdf = parser.from_file("ducument_1.pdf")
# saving content of pdf
# you can also bring text only, by parsed_pdf['text']
# parsed_pdf['content'] returns string
data = parsed_pdf['content']
# Printing of content
print(data)
# <class 'str'>
print(type(data))
所需的输出应如下所示:
Folder_Name | pdf1 | pdf2 |
---|---|---|
17534 | text of the pdf1 | text of the pdf 2 |
63546 | text of the pdf1 | text of the pdf1 |
26374 | text of the pdf1 | - |
在 unix 上获得所有 pdf 的列表非常容易。
import os
# saves all pdf in a string.
a = os.popen("du -a|awk '{print }'|grep '.*\.pdf$'").read()[2:-1]
print(a)
在我的电脑上输出是:
[luca@artix tmp]$ python3 forum.py
a.pdf
./foo/test.pdf
你可以做类似的事情
for line in a.split('\n'):
print(line, line.split('/'))
你会知道pdf的文件夹。希望对你有所帮助
如果要查找目录及其子目录中的所有 PDF,可以使用 os.listdir
和 glob
,请参阅 Recursive sub folder search and return files in a list python。我选择了稍微长一点的表格,这样初学者更容易理解正在发生的事情
然后,对于每个文件,调用 Apache Tika,并保存到 Pandas DataFrame
的下一行#!/usr/bin/python3
import os, glob
from tika import parser
from pandas import DataFrame
# What file extension to find, and where to look from
ext = "*.pdf"
PATH = "."
# Find all the files with that extension
files = []
for dirpath, dirnames, filenames in os.walk(PATH):
files += glob.glob(os.path.join(dirpath, ext))
# Create a Pandas Dataframe to hold the filenames and the text
df = DataFrame(columns=("filename","text"))
# Process each file in turn, parsing with Tika and storing in the dataframe
for idx, filename in enumerate(files):
data = parser.from_file(filename)
text = data["content"]
df.loc[idx] = [filename, text]
# For debugging, print what we found
print(df)