crawler4j

Question

简而言之：我无法得到这个URL的标题http://www.namlihipermarketleri.com.tr/default.asp?git=9&urun=10277（现在已经坏了（18-11-2015））

在我的 WebCrawler 实现中：

     @Override
     public void visit(Page page) {          
         System.out.println(page.getWebURL().getURL()); // when this prints the url
         if (page.getParseData() instanceof HtmlParseData) {
             HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
             System.out.println(htmlParseData.getTitle()); // This line prints an empty line!
         }
     }

注意：标题本身包含一些逗号“，”。你能提出一个解决方案吗？这是一个错误吗？

提前致谢。

Answer 1

问题可能是 HTML 文档中有 4 个标题标签。

我用过 Jsoup：http://jsoup.org/

HtmlParseData htmlParseData = (HtmlParseData) page
                        .getParseData();
String html = htmlParseData.getHtml();
Document htmlDocument = Jsoup.parse(html);              
String title = htmlDocument.getElementsByTag("title").get(0).text();

crawler4j - 我无法获得标题

crawler4j - I can't get the title

html-title