python request.get 当参数包含 # 锚标记时不获取结果
python request.get not fetching results when params include # anchor tag
我已经试了好一段时间了
我的 url 有 # 个标签
url = http://www.firstcry.com/search.aspx?q=blue%20jeans#q=@@@@1@0@20@@&gender=Unisex&PageNo=1
当我尝试 request.get(url)
方法时,它只获取 url 高达 # 标记的结果,但实际的 url 需要时间才能完全加载并给出最终结果集(不同)。
我怎样才能避免这种情况?
非常感谢。
URI 的片段部分(“#”之后的所有内容)通常由浏览器解释。也就是说,检索到的文档是“#”之前的所有内容。这就是 request.get(url)
实际加载的内容:具有该 URI 的 单个 文件(资源)。
现在,浏览器然后 "does something" 与片段 -- 滚动到它,最常见的是。浏览器可以通过 javascript.
对片段做其他事情
听起来您看到的是 requests
获取包含 javascript 的文件,该文件在加载时根据片段获取额外信息。
这与抓取动态 HTML 没有太大区别,其中抓取的页面加载 javascript 构建不同的 DOM。
您需要使用诸如 Selenium 之类的工具,否则您将不得不手动解释结果并加载其他 URL。
我已经试了好一段时间了 我的 url 有 # 个标签
url = http://www.firstcry.com/search.aspx?q=blue%20jeans#q=@@@@1@0@20@@&gender=Unisex&PageNo=1
当我尝试 request.get(url)
方法时,它只获取 url 高达 # 标记的结果,但实际的 url 需要时间才能完全加载并给出最终结果集(不同)。
我怎样才能避免这种情况?
非常感谢。
URI 的片段部分(“#”之后的所有内容)通常由浏览器解释。也就是说,检索到的文档是“#”之前的所有内容。这就是 request.get(url)
实际加载的内容:具有该 URI 的 单个 文件(资源)。
现在,浏览器然后 "does something" 与片段 -- 滚动到它,最常见的是。浏览器可以通过 javascript.
对片段做其他事情听起来您看到的是 requests
获取包含 javascript 的文件,该文件在加载时根据片段获取额外信息。
这与抓取动态 HTML 没有太大区别,其中抓取的页面加载 javascript 构建不同的 DOM。
您需要使用诸如 Selenium 之类的工具,否则您将不得不手动解释结果并加载其他 URL。