在 servlet 内部调用时出现 jsoup 爬虫错误
jsoup crawler error when called inside a servlet
我正在尝试抓取 flipkart 产品规格,当我 运行 它作为 java 应用程序时,代码工作正常。但是当我在 servlet 中调用它时,它给了我一个错误:
org.jsoup.nodes.Document doc;
Elements specs = null;
try {
doc = Jsoup.connect(link).timeout(250000).get();
specs = doc.select("table[class=specTable]");
System.out.println(specs);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
错误:
java.io.IOException: 500 error loading URL http://www.......
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:414)
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:425)
当我使用 userAgent mozilla 时有效。
doc3 = Jsoup.connect(link).userAgent("Mozilla").timeout(250000).get();
我正在尝试抓取 flipkart 产品规格,当我 运行 它作为 java 应用程序时,代码工作正常。但是当我在 servlet 中调用它时,它给了我一个错误:
org.jsoup.nodes.Document doc;
Elements specs = null;
try {
doc = Jsoup.connect(link).timeout(250000).get();
specs = doc.select("table[class=specTable]");
System.out.println(specs);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
错误:
java.io.IOException: 500 error loading URL http://www.......
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:414)
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:425)
当我使用 userAgent mozilla 时有效。
doc3 = Jsoup.connect(link).userAgent("Mozilla").timeout(250000).get();