抓取具有特定域后缀的站点
Crawling sites with certain domain suffix
我有兴趣找到尽可能多的具有我感兴趣的给定域后缀的域名,例如:“.com”、“.net”、“.org”等
我尝试抓取 Google,但这显然不合法而且很难做到。
是否存在包含域名的大列表?如果没有,我如何制作一个爬虫来尽可能多地找到以给定域后缀结尾的域名?
CommonCrawl近期公布了[主机排行榜][2](共385M),可按域名后缀筛选。
我有兴趣找到尽可能多的具有我感兴趣的给定域后缀的域名,例如:“.com”、“.net”、“.org”等
我尝试抓取 Google,但这显然不合法而且很难做到。
是否存在包含域名的大列表?如果没有,我如何制作一个爬虫来尽可能多地找到以给定域后缀结尾的域名?
CommonCrawl近期公布了[主机排行榜][2](共385M),可按域名后缀筛选。