crawler4j - 我无法获得标题
crawler4j - I can't get the title
简而言之:我无法得到这个URL的标题http://www.namlihipermarketleri.com.tr/default.asp?git=9&urun=10277(现在已经坏了(18-11-2015))
在我的 WebCrawler 实现中:
@Override
public void visit(Page page) {
System.out.println(page.getWebURL().getURL()); // when this prints the url
if (page.getParseData() instanceof HtmlParseData) {
HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
System.out.println(htmlParseData.getTitle()); // This line prints an empty line!
}
}
注意:标题本身包含一些逗号“,”。
你能提出一个解决方案吗?
这是一个错误吗?
提前致谢。
问题可能是 HTML 文档中有 4 个标题标签。
我用过 Jsoup:http://jsoup.org/
HtmlParseData htmlParseData = (HtmlParseData) page
.getParseData();
String html = htmlParseData.getHtml();
Document htmlDocument = Jsoup.parse(html);
String title = htmlDocument.getElementsByTag("title").get(0).text();
简而言之:我无法得到这个URL的标题http://www.namlihipermarketleri.com.tr/default.asp?git=9&urun=10277(现在已经坏了(18-11-2015))
在我的 WebCrawler 实现中:
@Override
public void visit(Page page) {
System.out.println(page.getWebURL().getURL()); // when this prints the url
if (page.getParseData() instanceof HtmlParseData) {
HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
System.out.println(htmlParseData.getTitle()); // This line prints an empty line!
}
}
注意:标题本身包含一些逗号“,”。 你能提出一个解决方案吗? 这是一个错误吗?
提前致谢。
问题可能是 HTML 文档中有 4 个标题标签。
我用过 Jsoup:http://jsoup.org/
HtmlParseData htmlParseData = (HtmlParseData) page
.getParseData();
String html = htmlParseData.getHtml();
Document htmlDocument = Jsoup.parse(html);
String title = htmlDocument.getElementsByTag("title").get(0).text();