使用 python 和 requests 在网页中嵌入的 pdf 中提取一些信息
Extract some information in a pdf embedded in a web page using python and requests
我正在尝试使用 python 和请求从网页中嵌入的 pdf 中提取一些信息,这正是我想要达到的句子 « Sciences de la vie et de l'environnement » .
image
这是您编写的代码:
import time
import requests
from bs4 import BeautifulSoup
# website to scrap
url = "https://fs.uit.ac.ma/avis-de-soutenance-dune-these-de-doctorat-mme-achachi-hind/"
with requests.session() as s:
# get the url from requests get method
html_content = s.get(url, verify=False)
# Parse the html content
soup = BeautifulSoup(html_content.content, "html.parser")
url2 = soup.iframe["src"]
html_doc = s.get(url2, verify=False).text
print(html_doc)
下面是一些 print(html_doc),
Print result
对比两张图,最后一张看不出里面是什么:
<div id="viewer" class="pdfViewer"></div>
这一行里面是我想要的文字:
The line I want to reach
您可以手动访问 PDF (https://fs.uit.ac.ma/wp-content/uploads/2022/02/AVIS-DE-SOUTENANCE-ACHACHI-HIND.pdf)。 iframe 和请求中有 url。如果无法从源代码中获取 url,则必须抓取请求(例如使用 BrowserMob)
我正在尝试使用 python 和请求从网页中嵌入的 pdf 中提取一些信息,这正是我想要达到的句子 « Sciences de la vie et de l'environnement » .
image
这是您编写的代码:
import time
import requests
from bs4 import BeautifulSoup
# website to scrap
url = "https://fs.uit.ac.ma/avis-de-soutenance-dune-these-de-doctorat-mme-achachi-hind/"
with requests.session() as s:
# get the url from requests get method
html_content = s.get(url, verify=False)
# Parse the html content
soup = BeautifulSoup(html_content.content, "html.parser")
url2 = soup.iframe["src"]
html_doc = s.get(url2, verify=False).text
print(html_doc)
下面是一些 print(html_doc),
Print result
对比两张图,最后一张看不出里面是什么:
<div id="viewer" class="pdfViewer"></div>
这一行里面是我想要的文字:
The line I want to reach
您可以手动访问 PDF (https://fs.uit.ac.ma/wp-content/uploads/2022/02/AVIS-DE-SOUTENANCE-ACHACHI-HIND.pdf)。 iframe 和请求中有 url。如果无法从源代码中获取 url,则必须抓取请求(例如使用 BrowserMob)