如何使用 edu.uci.ics.crawler4j.crawler.WebCrawler 发现所有 HTML 元标记
How to discover all HTML meta tags using edu.uci.ics.crawler4j.crawler.WebCrawler
我正在完成一个研究项目,对用于描述科学和学术期刊的所有 HTML 元标签进行编目,例如都柏林核心、开放图、棱镜、引文、参考书目等。
我正在使用 edu.uci.ics.crawler4j.crawler.WebCrawler
并且它适用于少量种子 URL。
我的问题是我需要更大的种子 URL 列表。
我有什么选择?
我是否必须手动搜索网络以查找期刊网站,或者我是否可以使用类似于 crawler4j
的工具来发现种子网站?
生成好种子是 Web-Crawling
领域的普遍问题,尤其是 领域特定的 任务(例如只看学术期刊)。一般来说,有几种选择:
使用开放式 Web 目录(例如 dmoz、...)或期刊列表(例如 Reuters List)来获取知名期刊的预分类种子点。
从理论上讲,大型搜索引擎已经收割了 WWW 相当大的一部分。您可以尝试对预定义查询执行 半自动 搜索并处理命中。然而,这可能会导致网络爬虫中一些更复杂的技术(例如focused crawling
)
一个选项是:
- 使用
crawler4j
从 Reuters 中收集您想要调查的领域的期刊名称。
- 为此,您需要查看期刊列表,例如business journal list。期刊名称始终在
h4
标签中,可以轻松提取。
- 提取名称后,您只需找出相应的网址即可。为此,您可以使用上面的搜索引擎方法。很有可能,第一个点击应该是期刊的网页。
我正在完成一个研究项目,对用于描述科学和学术期刊的所有 HTML 元标签进行编目,例如都柏林核心、开放图、棱镜、引文、参考书目等。
我正在使用 edu.uci.ics.crawler4j.crawler.WebCrawler
并且它适用于少量种子 URL。
我的问题是我需要更大的种子 URL 列表。
我有什么选择?
我是否必须手动搜索网络以查找期刊网站,或者我是否可以使用类似于 crawler4j
的工具来发现种子网站?
生成好种子是 Web-Crawling
领域的普遍问题,尤其是 领域特定的 任务(例如只看学术期刊)。一般来说,有几种选择:
使用开放式 Web 目录(例如 dmoz、...)或期刊列表(例如 Reuters List)来获取知名期刊的预分类种子点。
从理论上讲,大型搜索引擎已经收割了 WWW 相当大的一部分。您可以尝试对预定义查询执行 半自动 搜索并处理命中。然而,这可能会导致网络爬虫中一些更复杂的技术(例如
focused crawling
)
一个选项是:
- 使用
crawler4j
从 Reuters 中收集您想要调查的领域的期刊名称。 - 为此,您需要查看期刊列表,例如business journal list。期刊名称始终在
h4
标签中,可以轻松提取。 - 提取名称后,您只需找出相应的网址即可。为此,您可以使用上面的搜索引擎方法。很有可能,第一个点击应该是期刊的网页。