是否可以通过站点树远程或本地直接爬取站点树？

Question

我是网络开发新手，我有一个新手问题。

假设有一个网站，例如，

index.php
    page1.php
    page2.php
      page2-1.php
      page2-2.php
    page3.php

有没有一种方法可以尝试直接转到从索引开始的每个子页面，而无需知道子页面名称？具体来说，是否有可能在 Javascript 中构建一个像

一样工作的 function

console.log(printSiteTree("whosebug.com");
/* Prints: 

   whosebug.com
     whosebug.com/questions
            .
            .
            .
            whosebug.com/questions/29633992
            .
            .
            .
                whosebug.com/questions/29633992/is-there-any-tool-to-calculate-the-distance-between-a-program-point-and-a-execut
            .
            .
            .
     whosebug.com/tags
     .
     .
     .
*/

不依赖任何不正当的蛮力？

Answer 1

理论

如果站点想让您拥有它们，您可以获得站点上的链接列表。这是通过站点地图完成的：http://en.wikipedia.org/wiki/Site_map

通常，站点会在其 robots.txt 文件中提供站点地图的位置，以便抓取工具可以访问它。它很可能是一个 XML 文件，其中 URL 嵌套在 sitemap/loc.

下

例子

假设我们想要获取要抓取的链接 http://www.msn.com/。
我们可以转到通常的机器人文件位置，即：http://www.msn.com/robots.txt 在那里我们可以找到行：
Sitemap: http://sitemap.msn.com/xml
所以我们访问 URL 并得到我们的 URL 列表：

<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>http://sitemap.msn.com/xml/en-nz-autos-0</loc>
</sitemap>
<sitemap>
<loc>http://sitemap.msn.com/xml/en-nz-entertainment-0</loc>
</sitemap>
<sitemap>
<loc>http://sitemap.msn.com/xml/en-nz-entertainment-1</loc>
</sitemap>
<sitemap>
<loc>http://sitemap.msn.com/xml/en-nz-finance-0</loc>
</sitemap>

免责声明

并非所有网站都会为您提供此信息，并且无法保证其中包含哪些链接或完整列表。是否对你的目的有用，由你来判断。

是否可以通过站点树远程或本地直接爬取站点树？

Is it possible to crawl directly through a site tree a site tree remotely or locally?

javascript

algorithm

url

tree

web-crawler

理论

例子

免责声明