python request.get 当参数包含 # 锚标记时不获取结果

Question

我已经试了好一段时间了我的 url 有 # 个标签

url = http://www.firstcry.com/search.aspx?q=blue%20jeans#q=@@@@1@0@20@@&gender=Unisex&PageNo=1

当我尝试 request.get(url) 方法时，它只获取 url 高达 # 标记的结果，但实际的 url 需要时间才能完全加载并给出最终结果集（不同）。

我怎样才能避免这种情况？

非常感谢。

Answer 1

URI 的片段部分（“#”之后的所有内容）通常由浏览器解释。也就是说，检索到的文档是“#”之前的所有内容。这就是 request.get(url) 实际加载的内容：具有该 URI 的单个文件（资源）。

现在，浏览器然后 "does something" 与片段 -- 滚动到它，最常见的是。浏览器可以通过 javascript.

对片段做其他事情

听起来您看到的是 requests 获取包含 javascript 的文件，该文件在加载时根据片段获取额外信息。

这与抓取动态 HTML 没有太大区别，其中抓取的页面加载 javascript 构建不同的 DOM。

您需要使用诸如 Selenium 之类的工具，否则您将不得不手动解释结果并加载其他 URL。

python request.get not fetching results when params include # anchor tag