Crawler4j下载篇

Crawler4j downloading articles

web-crawler
categorization
crawler4j

我正在尝试使用 Crawler4j 从新闻门户下载文章。我想将它们存储在类别 'sport' 'science' 'health' 或该门户创建的任何其他类别下的文件夹中。 Url 解析是不够的，因为一些门户网站不在 url 中使用类别。我唯一的想法是制作一棵树并记住在当前页面上找到的链接。有更简单的方法吗？

您可以解析实际页面并使用 CSS 标签，识别标题或面包屑

我建议为此使用 JSOUP。

您需要了解新闻站点以及哪个 css 标签是痕迹导航 css 标签。

Crawler4j下载篇

Crawler4j downloading articles

web-crawler

categorization

crawler4j