Python 机械化,如何获取 URL 参数
Python Mechanize, how to get URL parameters
我目前正在研究网站抓取工具。因为我必须登录才能访问该网站,所以必须生成并保存一个 session ID
以供进一步使用。
session ID
在URL的末尾。
https://example.com/something.php?sid=123456789
我尝试使用 geturl()
命令,但它只有 returns 和 URL 没有任何参数。
获取 url 参数的最佳方法是什么?
from urllib.parse import urlparse
parsed = urlparse(url)
print(parsed)
输出:
ParseResult(scheme='https', netloc='example.com', path='/something.php', params='', query='sid=123456789', fragment='')
然后,您可以访问:
print(parsed.query)
输出:
sid=123456789
然后,您可以提取:
sid = parsed.query.split('sid=')[-1]
print(sid)
输出:
123456789
我目前正在研究网站抓取工具。因为我必须登录才能访问该网站,所以必须生成并保存一个 session ID
以供进一步使用。
session ID
在URL的末尾。
https://example.com/something.php?sid=123456789
我尝试使用 geturl()
命令,但它只有 returns 和 URL 没有任何参数。
获取 url 参数的最佳方法是什么?
from urllib.parse import urlparse
parsed = urlparse(url)
print(parsed)
输出:
ParseResult(scheme='https', netloc='example.com', path='/something.php', params='', query='sid=123456789', fragment='')
然后,您可以访问:
print(parsed.query)
输出:
sid=123456789
然后,您可以提取:
sid = parsed.query.split('sid=')[-1]
print(sid)
输出:
123456789