Apache Nutch 网络爬虫的种子 URL

Seed URL for Apache Nutch Web Crawling

Apache Nutch 推荐 http://rdf.dmoz.org/rdf/content.rdf.u8.gz 作为网络抓取的种子 URL。但是,他们已经关闭了该网站。是否有用于网络抓取的替代种子 URL?

我建议看一下 http://commoncrawl.org。我认为他们提供了一个非常全面的数据集。