在 url 的层次结构下提取 file/page 个名称

Extracting file/page names under the hierarchy of url

鉴于我有一个 link 如何提取层次结构下的 file/page 个名称,

例如在这个 Whosebug 交换中, https://whosebug.com/questions/
在这之后有很多 links。

whosebug.com/questions/31236312
计算器。com/questions/31235818
... 等

我知道 "whosebug.com/questions/" 并希望找出这些数字,后面的名字。

有办法吗?

我正在调查的网站使用 CSS 和 例如,它不允许访问 Whosebug。com/questions/(我收到错误 403--禁止访问)
但只允许其下的特定页面。
这些文件名由数字和字母字符组成,即72304,或 A1103457 等

该层次结构下有 100 多个文件,我想找出其中的所有文件 names/url。

非常感谢。

简而言之,您t.There 无法只抓取给定 url/domain 路径下的每个页面。

在更长的时间内...你可以使用像这样的蜘蛛 https://github.com/mvdbos/php-spider

跟踪链接并进行广度深度搜索,查找在给定 url 下可以找到的所有链接。然而,它会加载它找到的每个页面,搜索链接然后继续。所以它在大型网站上会非常慢,并可能导致帐户锁定和违反服务条款。