如何使用 edu.uci.ics.crawler4j.crawler.WebCrawler 发现所有 HTML 元标记

How to discover all HTML meta tags using edu.uci.ics.crawler4j.crawler.WebCrawler

我正在完成一个研究项目,对用于描述科学和学术期刊的所有 HTML 元标签进行编目,例如都柏林核心、开放图、棱镜、引文、参考书目等。

我正在使用 edu.uci.ics.crawler4j.crawler.WebCrawler 并且它适用于少量种子 URL。

我的问题是我需要更大的种子 URL 列表。

我有什么选择?

我是否必须手动搜索网络以查找期刊网站,或者我是否可以使用类似于 crawler4j 的工具来发现种子网站?

生成好种子是 Web-Crawling 领域的普遍问题,尤其是 领域特定的 任务(例如只看学术期刊)。一般来说,有几种选择:

  • 使用开放式 Web 目录(例如 dmoz、...)或期刊列表(例如 Reuters List)来获取知名期刊的预分类种子点。

  • 从理论上讲,大型搜索引擎已经收割了 WWW 相当大的一部分。您可以尝试对预定义查询执行 半自动 搜索并处理命中。然而,这可能会导致网络爬虫中一些更复杂的技术(例如focused crawling

一个选项是:

  • 使用 crawler4jReuters 中收集您想要调查的领域的期刊名称。
  • 为此,您需要查看期刊列表,例如business journal list。期刊名称始终在 h4 标签中,可以轻松提取。
  • 提取名称后,您只需找出相应的网址即可。为此,您可以使用上面的搜索引擎方法。很有可能,第一个点击应该是期刊的网页。