如何使用 edu.uci.ics.crawler4j.crawler.WebCrawler 发现所有 HTML 元标记

How to discover all HTML meta tags using edu.uci.ics.crawler4j.crawler.WebCrawler

我正在完成一个研究项目，对用于描述科学和学术期刊的所有 HTML 元标签进行编目，例如都柏林核心、开放图、棱镜、引文、参考书目等。

我正在使用 edu.uci.ics.crawler4j.crawler.WebCrawler 并且它适用于少量种子 URL。

我的问题是我需要更大的种子 URL 列表。

我有什么选择？

我是否必须手动搜索网络以查找期刊网站，或者我是否可以使用类似于 crawler4j 的工具来发现种子网站？

生成好种子是 Web-Crawling 领域的普遍问题，尤其是 领域特定的 任务（例如只看学术期刊）。一般来说，有几种选择：

使用开放式 Web 目录（例如 dmoz、...）或期刊列表（例如 Reuters List）来获取知名期刊的预分类种子点。
从理论上讲，大型搜索引擎已经收割了 WWW 相当大的一部分。您可以尝试对预定义查询执行 半自动 搜索并处理命中。然而，这可能会导致网络爬虫中一些更复杂的技术（例如focused crawling）

一个选项是：