隐藏字段的网页抓取
Webscraping for the Hidden Fields
我正在抓取网站:https://apps.ktrade.pk/webterminalv3/SignIn 我可以从中获取 HTML,但是 div 和 class box-user-id 的子元素不能出现在我的 html 元素中;在检查元素上,显示了 box-user-id 的子元素。
我已经尝试使用多个库,如 selenium、BeautifulSoup、mechanicalsoup 等。请告诉我我该怎么做。提前致谢。
您可以尝试使用该代码登录
import requests
from bs4 import BeautifulSoup
session = requests.Session()
# get auth page
auth = session.get('https://apps.ktrade.pk/webterminalv3/SignIn')
# collect csrf token
soup = BeautifulSoup(auth.text, 'html.parser')
csrf_token = soup.find('input', {'name': 'csrfPreventionSalt'})['value']
# create login request
session.post('https://apps.ktrade.pk/webterminalv3/ajax/login', data={
'username': 'your_username', 'password': 'your_password',
'csrfPreventionSalt': csrf_token, 'actBrandName': 'KTrade'
})
我正在抓取网站:https://apps.ktrade.pk/webterminalv3/SignIn 我可以从中获取 HTML,但是 div 和 class box-user-id 的子元素不能出现在我的 html 元素中;在检查元素上,显示了 box-user-id 的子元素。
我已经尝试使用多个库,如 selenium、BeautifulSoup、mechanicalsoup 等。请告诉我我该怎么做。提前致谢。
您可以尝试使用该代码登录
import requests
from bs4 import BeautifulSoup
session = requests.Session()
# get auth page
auth = session.get('https://apps.ktrade.pk/webterminalv3/SignIn')
# collect csrf token
soup = BeautifulSoup(auth.text, 'html.parser')
csrf_token = soup.find('input', {'name': 'csrfPreventionSalt'})['value']
# create login request
session.post('https://apps.ktrade.pk/webterminalv3/ajax/login', data={
'username': 'your_username', 'password': 'your_password',
'csrfPreventionSalt': csrf_token, 'actBrandName': 'KTrade'
})