使用 Python 解析动态网页
Parsing a Dynamic Web Page using Python
我正在尝试解析一个网页,当我按箭头键获取下拉列表时,其 html 源代码发生了变化。
我想解析该下拉列表的内容。我该怎么做?
问题示例:如果您访问此站点:http://in.bookmyshow.com/hyderabad 和 select comboBox 上的箭头按钮 "Select Movie" 出现电影下拉列表。我想获得这些电影的列表。
提前致谢。
您需要深入研究 JavaScript 以查看该菜单是如何填充的。如果它是通过 AJAX 填充的,那么通过对相同的 URL 重新发出请求(例如,对“http://www.example.com/get_dropdown_entries.php”执行 GET 请求可能很容易获得该内容.
用于填充下拉框的实际 URL 数据在这里:
尽管如此,我还是要小心一点,仔细检查网站的使用条款,或者是否有任何您可以改用的 API。
您可能想看看 selenium。它允许您重现与您完全相同的步骤,因为它还使用浏览器(Firefox、Chrome 等)。
当然,它不如使用 mechanize、urllib、beautifulsoup 和所有这些东西快,但值得一试。
我正在尝试解析一个网页,当我按箭头键获取下拉列表时,其 html 源代码发生了变化。 我想解析该下拉列表的内容。我该怎么做?
问题示例:如果您访问此站点:http://in.bookmyshow.com/hyderabad 和 select comboBox 上的箭头按钮 "Select Movie" 出现电影下拉列表。我想获得这些电影的列表。
提前致谢。
您需要深入研究 JavaScript 以查看该菜单是如何填充的。如果它是通过 AJAX 填充的,那么通过对相同的 URL 重新发出请求(例如,对“http://www.example.com/get_dropdown_entries.php”执行 GET 请求可能很容易获得该内容.
用于填充下拉框的实际 URL 数据在这里:
尽管如此,我还是要小心一点,仔细检查网站的使用条款,或者是否有任何您可以改用的 API。
您可能想看看 selenium。它允许您重现与您完全相同的步骤,因为它还使用浏览器(Firefox、Chrome 等)。
当然,它不如使用 mechanize、urllib、beautifulsoup 和所有这些东西快,但值得一试。