无法使用 python 下载 pdf
unable to dowload pdf using python
我正在尝试使用 python 脚本下载 pdf。我曾尝试使用 urlib、pdfkit 和 curl。当我尝试下载 pdf 时,我得到的是页面的 html/js 内容,而不是 pdf 文件。请帮我解决这个问题。
使用 pdfkit:
import pdfkit
pdfkit.from_url('http://www.kubota.com/product/BSeries/B2301/pdf/B01_Specs.pdf', 'out.pdf', options = {'javascript-delay':'10000'})
使用 urllib:
import urllib2
response = urllib2.urlopen('http://www.kubota.com/product/BSeries/B2301/pdf/B01_Specs.pdf')
file = open("out.pdf", 'wb')
file.write(response.read())
file.close()
您可以使用 urllib3
库
import urllib3
def download_file(download_url):
http = urllib3.PoolManager()
response = http.request('GET', download_url)
f = open('output.pdf', 'wb')
f.write(response.data)
f.close()
if __name__ == '__main__':
download_file('http://www.kubota.com/product/BSeries/B2301/pdf/B01_Specs.pdf')
你应该可以用 requests 很容易地做到这一点
import requests
r = requests.get('http://www.axmag.com/download/pdfurl-guide.pdf') #your url here
with open('your_file_path_here.pdf', 'wb') as f:
f.write(r.content)
我正在尝试使用 python 脚本下载 pdf。我曾尝试使用 urlib、pdfkit 和 curl。当我尝试下载 pdf 时,我得到的是页面的 html/js 内容,而不是 pdf 文件。请帮我解决这个问题。
使用 pdfkit:
import pdfkit
pdfkit.from_url('http://www.kubota.com/product/BSeries/B2301/pdf/B01_Specs.pdf', 'out.pdf', options = {'javascript-delay':'10000'})
使用 urllib:
import urllib2
response = urllib2.urlopen('http://www.kubota.com/product/BSeries/B2301/pdf/B01_Specs.pdf')
file = open("out.pdf", 'wb')
file.write(response.read())
file.close()
您可以使用 urllib3
库
import urllib3
def download_file(download_url):
http = urllib3.PoolManager()
response = http.request('GET', download_url)
f = open('output.pdf', 'wb')
f.write(response.data)
f.close()
if __name__ == '__main__':
download_file('http://www.kubota.com/product/BSeries/B2301/pdf/B01_Specs.pdf')
你应该可以用 requests 很容易地做到这一点
import requests
r = requests.get('http://www.axmag.com/download/pdfurl-guide.pdf') #your url here
with open('your_file_path_here.pdf', 'wb') as f:
f.write(r.content)