爬一个网站，除了wget还有什么最快的方法

Question

我使用 wget --spider -l4 -r --delete-after 选项。我意识到抓取速度相对较慢。

我的页面有该类别的第 2、3、4、5 等页（第 1 页的 link）。

如果我只想点击一次网站页面，而不是检索 html，我应该用什么方法最快。

总的来说是能够触及所有内部links，让它们加载一次（生成我的缓存）。我不需要抓取 html。任何想法如何以最快的方式做到这一点。本站均为interlinked

Main site
 > Category
   > Different Posts of Category
      > Pages of Post

我希望能够以最快的方式（不需要下载任何东西）抓取网站本身的所有 link，就像 google 机器人蜘蛛一样。

谢谢

Answer 1

mget 与 wget 类似，但多线程。所以它可以利用并行连接来加快速度。它还具有更复杂的压缩支持。如果你开始经常使用它，我想你会发现它总体上运行速度更快。

Spider a website, what the fastest method other than wget