Python 机械化，如何获取 URL 参数

Question

我目前正在研究网站抓取工具。因为我必须登录才能访问该网站，所以必须生成并保存一个 session ID 以供进一步使用。

session ID在URL的末尾。

https://example.com/something.php?sid=123456789

我尝试使用 geturl() 命令，但它只有 returns 和 URL 没有任何参数。

获取 url 参数的最佳方法是什么？

Answer 1

from urllib.parse import urlparse

parsed = urlparse(url)
print(parsed)

输出：

ParseResult(scheme='https', netloc='example.com', path='/something.php', params='', query='sid=123456789', fragment='')

然后，您可以访问：

print(parsed.query)

输出：

sid=123456789

然后，您可以提取：

sid = parsed.query.split('sid=')[-1]
print(sid)

输出：

123456789

Python Mechanize, how to get URL parameters