Apache Nutch 网络爬虫的种子 URL
Seed URL for Apache Nutch Web Crawling
Apache Nutch 推荐 http://rdf.dmoz.org/rdf/content.rdf.u8.gz 作为网络抓取的种子 URL。但是,他们已经关闭了该网站。是否有用于网络抓取的替代种子 URL?
我建议看一下 http://commoncrawl.org。我认为他们提供了一个非常全面的数据集。
Apache Nutch 推荐 http://rdf.dmoz.org/rdf/content.rdf.u8.gz 作为网络抓取的种子 URL。但是,他们已经关闭了该网站。是否有用于网络抓取的替代种子 URL?
我建议看一下 http://commoncrawl.org。我认为他们提供了一个非常全面的数据集。