使用 python 从 pdf 中获取文本数据
Get text data from a pdf with python
我在这里对如何处理 pdf 感到困惑。我不知道如何直接从网上抓取,当我在本地下载时,它们完全是胡说八道,而不是实际的文本数据。
我试过用requests下载,但是里面的内容就没用了。
import PyPDF2
# textract
import requests
# from nltk.tokenize import word_tokenize
# from nltk.corpus import stopwords
def get_amount(url):
data = requests.get(url)
with open('/Users/derricdonehoo/code/derric-d/price-processor/exmpl.pdf', 'wb') as f:
f.write(data.content)
我正在尝试弄清楚如何从 pdf 中获取数据。任何建议将不胜感激!
请修改为:
import PyPDF2
pdf_file = open('/Users/derricdonehoo/code/derric-d/price-processor/exmpl.pdf')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
for i in number_of_pages:
page = read_pdf.getPage(0)
page_content = page.extractText()
print page_content
我在这里对如何处理 pdf 感到困惑。我不知道如何直接从网上抓取,当我在本地下载时,它们完全是胡说八道,而不是实际的文本数据。
我试过用requests下载,但是里面的内容就没用了。
import PyPDF2
# textract
import requests
# from nltk.tokenize import word_tokenize
# from nltk.corpus import stopwords
def get_amount(url):
data = requests.get(url)
with open('/Users/derricdonehoo/code/derric-d/price-processor/exmpl.pdf', 'wb') as f:
f.write(data.content)
我正在尝试弄清楚如何从 pdf 中获取数据。任何建议将不胜感激!
请修改为:
import PyPDF2
pdf_file = open('/Users/derricdonehoo/code/derric-d/price-processor/exmpl.pdf')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
for i in number_of_pages:
page = read_pdf.getPage(0)
page_content = page.extractText()
print page_content