在 Nutch 中,我如何使用我的数据库来存储所有种子 URL 的列表?

In Nutch, how can I use my DB to store the list of all the seed URLs?

现在,我正在使用带有要抓取的域名列表的 seed.txt 文件,但是有没有办法在我用 Nutch 设置的数据库中包含这个列表?

与此相关:我可以列出多少个域有限制吗?

开箱即用的 Nutch 不提供此功能,但您可以自定义 the Injector.java file 以实现您想要的行为,也许使用 DBInputFormat 之类的东西从数据库中读取。

简而言之,您可以自定义注入步骤以从您喜欢的任何数据源(SQL、否SQL 等)收集信息