在 url 的层次结构下提取 file/page 个名称

Extracting file/page names under the hierarchy of url

鉴于我有一个 link 如何提取层次结构下的 file/page 个名称，

例如在这个 Whosebug 交换中， https://whosebug.com/questions/
在这之后有很多 links。

whosebug.com/questions/31236312
计算器。com/questions/31235818
... 等

我知道 "whosebug.com/questions/" 并希望找出这些数字，后面的名字。

有办法吗？

我正在调查的网站使用 CSS 和例如，它不允许访问 Whosebug。com/questions/（我收到错误 403--禁止访问）
但只允许其下的特定页面。
这些文件名由数字和字母字符组成，即72304，或 A1103457 等

该层次结构下有 100 多个文件，我想找出其中的所有文件 names/url。

非常感谢。

简而言之，您t.There 无法只抓取给定 url/domain 路径下的每个页面。

在更长的时间内...你可以使用像这样的蜘蛛 https://github.com/mvdbos/php-spider

跟踪链接并进行广度深度搜索，查找在给定 url 下可以找到的所有链接。然而，它会加载它找到的每个页面，搜索链接然后继续。所以它在大型网站上会非常慢，并可能导致帐户锁定和违反服务条款。