PHPCrawler库获取不到内容
PHPCrawler library can't get content
我正在使用 PHPCrawler class 从 eBay 等不同的商店获取产品标题,该库适用于我在我的应用程序中支持的所有商店,Blink store website 网站的搜索页面除外通常不像其他商店网站那样启动,当我通过 Chrome 调试器跟踪网站的请求时,我发现它是由脚本启动的,尽管请求 url 与原始 url 相同我在Chrome和url上输入地址栏 我在class上设置了抓取。
那么爬虫 class 有什么方法可以获取我重定向到的页面吗?我使用了 setFollowRedirects 方法但没有成功,因为重定向是在客户端通过 javascript 而不是 headers 完成的。此外,我发现在正常的 get 请求之后发出了一个额外的 post 请求,我也尝试添加 post 数据但是我得到了相同的结果一个空结果集,当我输出获取的页面我没有列出产品。
旁注:Blink 商店网站是一个 ASP.net 网站,这是我无法抓取其页面的原因吗?
更新
我尝试使用标准 php cURL 函数获取页面并回显响应,页面回显不完整并不断刷新。
我终于在同一个远程页面上使用 cURL 两次解决了这个问题,搜索结果不会出现,除非你有网站所需的有效 cookie,所以第一个 cURL 请求是为了获取 cookie首先是文件,然后使用另一个 cURL 请求来获取内容。
只需在调用之前添加以下行 curl_exec()
curl_setopt($ch, CURLOPT_COOKIEJAR, 'cookie.txt');
curl_setopt($ch, CURLOPT_COOKIEFILE, 'cookie.txt');
我正在使用 PHPCrawler class 从 eBay 等不同的商店获取产品标题,该库适用于我在我的应用程序中支持的所有商店,Blink store website 网站的搜索页面除外通常不像其他商店网站那样启动,当我通过 Chrome 调试器跟踪网站的请求时,我发现它是由脚本启动的,尽管请求 url 与原始 url 相同我在Chrome和url上输入地址栏 我在class上设置了抓取。
那么爬虫 class 有什么方法可以获取我重定向到的页面吗?我使用了 setFollowRedirects 方法但没有成功,因为重定向是在客户端通过 javascript 而不是 headers 完成的。此外,我发现在正常的 get 请求之后发出了一个额外的 post 请求,我也尝试添加 post 数据但是我得到了相同的结果一个空结果集,当我输出获取的页面我没有列出产品。
旁注:Blink 商店网站是一个 ASP.net 网站,这是我无法抓取其页面的原因吗?
更新
我尝试使用标准 php cURL 函数获取页面并回显响应,页面回显不完整并不断刷新。
我终于在同一个远程页面上使用 cURL 两次解决了这个问题,搜索结果不会出现,除非你有网站所需的有效 cookie,所以第一个 cURL 请求是为了获取 cookie首先是文件,然后使用另一个 cURL 请求来获取内容。
只需在调用之前添加以下行 curl_exec()
curl_setopt($ch, CURLOPT_COOKIEJAR, 'cookie.txt');
curl_setopt($ch, CURLOPT_COOKIEFILE, 'cookie.txt');