HTML 在 Python 未知错误中使用 BeautifulSoup 进行解析
HTML parsing with BeautifulSoup in Python unknown error
我知道此代码适用于以 .com 结尾的其他网站
但是我注意到,如果我尝试解析以 .kr 结尾的网站,代码将不起作用
有人可以帮助找出发生这种情况的原因以及解析这些类型网站的替代解决方案吗?
以下是我的代码。
import requests
from bs4 import BeautifulSoup
URL = 'https://everytime.kr/@nN4K1XC0weHnnM9VB5Qe'
page = requests.get(URL)
soup = BeautifulSoup(page.content, 'html.parser')
results = soup.find(id='container')
print(results)
这里的 URL 是我的时间表 link。我需要解析这个网站,以便我可以轻松地收集主题信息和与主题相关的数据(持续时间、位置、教授姓名等)。
谢谢
网站正在提供动态内容,您收到空响应 - 您可以使用 selenium。
例子
from selenium import webdriver
from bs4 import BeautifulSoup
import time
driver = webdriver.Chrome(executable_path=r'C:\Program Files\ChromeDriver\chromedriver.exe')
url = 'https://everytime.kr/@nN4K1XC0weHnnM9VB5Qe'
driver.get(url)
time.sleep(5)
soup = BeautifulSoup(driver.page_source, 'html.parser')
results = soup.find(id='container')
print(results)
driver.close()
我知道此代码适用于以 .com 结尾的其他网站
但是我注意到,如果我尝试解析以 .kr 结尾的网站,代码将不起作用
有人可以帮助找出发生这种情况的原因以及解析这些类型网站的替代解决方案吗?
以下是我的代码。
import requests
from bs4 import BeautifulSoup
URL = 'https://everytime.kr/@nN4K1XC0weHnnM9VB5Qe'
page = requests.get(URL)
soup = BeautifulSoup(page.content, 'html.parser')
results = soup.find(id='container')
print(results)
这里的 URL 是我的时间表 link。我需要解析这个网站,以便我可以轻松地收集主题信息和与主题相关的数据(持续时间、位置、教授姓名等)。
谢谢
网站正在提供动态内容,您收到空响应 - 您可以使用 selenium。
例子
from selenium import webdriver
from bs4 import BeautifulSoup
import time
driver = webdriver.Chrome(executable_path=r'C:\Program Files\ChromeDriver\chromedriver.exe')
url = 'https://everytime.kr/@nN4K1XC0weHnnM9VB5Qe'
driver.get(url)
time.sleep(5)
soup = BeautifulSoup(driver.page_source, 'html.parser')
results = soup.find(id='container')
print(results)
driver.close()