爬一个网站,除了wget还有什么最快的方法

Spider a website, what the fastest method other than wget

我使用 wget --spider -l4 -r --delete-after 选项。 我意识到抓取速度相对较慢。

我的页面有该类别的第 2、3、4、5 等页(第 1 页的 link)。

如果我只想点击一次网站页面,而不是检索 html,我应该用什么方法最快。

总的来说是能够触及所有内部links,让它们加载一次(生成我的缓存)。我不需要抓取 html。任何想法如何以最快的方式做到这一点。本站均为interlinked

Main site
 > Category
   > Different Posts of Category
      > Pages of Post

我希望能够以最快的方式(不需要下载任何东西)抓取网站本身的所有 link,就像 google 机器人蜘蛛一样。

谢谢

我建议尝试 mget http://rockdaboot.github.io/mget/

mgetwget 类似,但多线程。所以它可以利用并行连接来加快速度。它还具有更复杂的压缩支持。如果你开始经常使用它,我想你会发现它总体上运行速度更快。