具有多个重定向的表单提交
Form submit with multiple redirection
我正在尝试从一个网站获取数据,一旦您提交表单,它就会重定向到一个加载页面,该页面设置为自动重定向到最终结果页面。问题是爬虫只获取加载页面的数据,并没有完全进入我实际需要的最终结果页面。有人可以告诉我如何实现吗?如果不可能,那么有什么替代方法可以做到这一点?
如果您使用的是 curl,可以尝试以下操作:
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
如果您仍然无法通过加载页面,则可能不是 http 重定向。
在这种情况下,您必须手动解析目标位置。许多网站为此类加载页面使用元刷新标签。查找类似于以下内容的内容:
<meta http-equiv="refresh" content="5; url=http://example.com/" />
您可以使用正则表达式或 php 的任何 dom 解析库轻松解析上述内容。
另一种可能性是 javascript 重定向。在源代码中查找包含 window.location
的行。
我正在尝试从一个网站获取数据,一旦您提交表单,它就会重定向到一个加载页面,该页面设置为自动重定向到最终结果页面。问题是爬虫只获取加载页面的数据,并没有完全进入我实际需要的最终结果页面。有人可以告诉我如何实现吗?如果不可能,那么有什么替代方法可以做到这一点?
如果您使用的是 curl,可以尝试以下操作:
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
如果您仍然无法通过加载页面,则可能不是 http 重定向。
在这种情况下,您必须手动解析目标位置。许多网站为此类加载页面使用元刷新标签。查找类似于以下内容的内容:
<meta http-equiv="refresh" content="5; url=http://example.com/" />
您可以使用正则表达式或 php 的任何 dom 解析库轻松解析上述内容。
另一种可能性是 javascript 重定向。在源代码中查找包含 window.location
的行。