如何使用crawler4j解析文档

How to parse a document using crawler4j

我想在 Eclipse 中使用 crawler4j 解析包含我输入的一些文本的所有文档 "query"。

有什么想法吗?

不是真正的 "direct" 答案,但最近几天我也玩了爬行。我首先查看了 Crawler4J,然后偶然发现了 JSoup。没怎么玩爬虫,但事实证明 jSoup 是一个非常简单的解析工具。因此我的建议。如果你真的需要抓取一部分网络,我想爬虫是好的。但 JSoup 作为一个优秀的解析器似乎真的很耀眼。类似于 JQuery 在选择节点等方面...所以也许使用爬虫首先收集文档,然后使用 JSoup 解析它们。这是一个简单的例子:

    Document doc = Jsoup.connect("http://example.com").userAgent("Mozilla").timeout(5000)
            .get();
    Elements els = doc.select("li");