使用 python 提取 html 文件中的特定部分
Extract specific portions in html file using python
如何提取 html 文件示例的特定部分 https://patents.google.com/patent/EP1208209A1/en?oq=medicinal+chemistry
到目前为止,我使用 beautifulsoup 获得了没有所有标签的 html 的文本版本。但我希望我的代码只读取上述文件的声明部分。
据我所知,有两个带有 class="flex flex-width style-scope patent-result".
的 div
soup = BeautifulSoup(sdata)
mydivs = soup.findAll("div", {"class": "flex flex-width style-scope patent-result"})
div_with_claims = mydivs [1]
filename= 'C:/Users/xyz/.ipynb_checkpoints/EP1208209A1.html'
html_file =open(filename, 'r', encoding='utf-8')
source_code = html_file.read()
#print(source_code)
soup = BeautifulSoup(source_code)
print(soup.get_text())
#mydivs = soup.findAll("div", {"class": "flex flex-width style-scope patent-result"})
#div_with_claims = mydivs [1]
#print(div_with_claims)
伙计,我发现在这个网站上,声明部分是一个 html,它有自己的 ID,让事情变得更容易。我只是收集了部分并给出了字符串,所以你可以玩它。
import requests
from bs4 import BeautifulSoup
page = requests.get("https://patents.google.com/patent/EP1208209A1/en?oq=medicinal+chemistry")
soup = BeautifulSoup(page.content, 'html.parser')
claim_sect = soup.find_all('section', attrs={"itemprop":"claims"})
print('This is the raw content: \n')
print(str(claim_sect))
print('This is the variable type: \n')
print(str(type(claim_sect)))
str_sect = claim_sect[0]
如何提取 html 文件示例的特定部分 https://patents.google.com/patent/EP1208209A1/en?oq=medicinal+chemistry
到目前为止,我使用 beautifulsoup 获得了没有所有标签的 html 的文本版本。但我希望我的代码只读取上述文件的声明部分。
据我所知,有两个带有 class="flex flex-width style-scope patent-result".
的 divsoup = BeautifulSoup(sdata)
mydivs = soup.findAll("div", {"class": "flex flex-width style-scope patent-result"})
div_with_claims = mydivs [1]
filename= 'C:/Users/xyz/.ipynb_checkpoints/EP1208209A1.html'
html_file =open(filename, 'r', encoding='utf-8')
source_code = html_file.read()
#print(source_code)
soup = BeautifulSoup(source_code)
print(soup.get_text())
#mydivs = soup.findAll("div", {"class": "flex flex-width style-scope patent-result"})
#div_with_claims = mydivs [1]
#print(div_with_claims)
伙计,我发现在这个网站上,声明部分是一个 html,它有自己的 ID,让事情变得更容易。我只是收集了部分并给出了字符串,所以你可以玩它。
import requests
from bs4 import BeautifulSoup
page = requests.get("https://patents.google.com/patent/EP1208209A1/en?oq=medicinal+chemistry")
soup = BeautifulSoup(page.content, 'html.parser')
claim_sect = soup.find_all('section', attrs={"itemprop":"claims"})
print('This is the raw content: \n')
print(str(claim_sect))
print('This is the variable type: \n')
print(str(type(claim_sect)))
str_sect = claim_sect[0]