Crawler4j下载篇
Crawler4j downloading articles
我正在尝试使用 Crawler4j 从新闻门户下载文章。我想将它们存储在类别 'sport' 'science' 'health' 或该门户创建的任何其他类别下的文件夹中。 Url 解析是不够的,因为一些门户网站不在 url 中使用类别。我唯一的想法是制作一棵树并记住在当前页面上找到的链接。有更简单的方法吗?
您可以解析实际页面并使用 CSS 标签,识别标题或面包屑
我建议为此使用 JSOUP。
您需要了解新闻站点以及哪个 css 标签是痕迹导航 css 标签。
我正在尝试使用 Crawler4j 从新闻门户下载文章。我想将它们存储在类别 'sport' 'science' 'health' 或该门户创建的任何其他类别下的文件夹中。 Url 解析是不够的,因为一些门户网站不在 url 中使用类别。我唯一的想法是制作一棵树并记住在当前页面上找到的链接。有更简单的方法吗?
您可以解析实际页面并使用 CSS 标签,识别标题或面包屑
我建议为此使用 JSOUP。
您需要了解新闻站点以及哪个 css 标签是痕迹导航 css 标签。