抓取具有特定域后缀的站点

Crawling sites with certain domain suffix

我有兴趣找到尽可能多的具有我感兴趣的给定域后缀的域名,例如:“.com”、“.net”、“.org”等

我尝试抓取 Google,但这显然不合法而且很难做到。

是否存在包含域名的大列表?如果没有,我如何制作一个爬虫来尽可能多地找到以给定域后缀结尾的域名?

CommonCrawl近期公布了[主机排行榜][2](共385M),可按域名后缀筛选。