在 url 的层次结构下提取 file/page 个名称
Extracting file/page names under the hierarchy of url
鉴于我有一个 link 如何提取层次结构下的 file/page 个名称,
例如在这个 Whosebug 交换中,
https://whosebug.com/questions/
在这之后有很多 links。
whosebug.com/questions/31236312
计算器。com/questions/31235818
...
等
我知道 "whosebug.com/questions/" 并希望找出这些数字,后面的名字。
有办法吗?
我正在调查的网站使用 CSS 和
例如,它不允许访问 Whosebug。com/questions/(我收到错误 403--禁止访问)
但只允许其下的特定页面。
这些文件名由数字和字母字符组成,即72304,或 A1103457 等
该层次结构下有 100 多个文件,我想找出其中的所有文件 names/url。
非常感谢。
简而言之,您t.There 无法只抓取给定 url/domain 路径下的每个页面。
在更长的时间内...你可以使用像这样的蜘蛛
https://github.com/mvdbos/php-spider
跟踪链接并进行广度深度搜索,查找在给定 url 下可以找到的所有链接。然而,它会加载它找到的每个页面,搜索链接然后继续。所以它在大型网站上会非常慢,并可能导致帐户锁定和违反服务条款。
鉴于我有一个 link 如何提取层次结构下的 file/page 个名称,
例如在这个 Whosebug 交换中,
https://whosebug.com/questions/
在这之后有很多 links。
whosebug.com/questions/31236312
计算器。com/questions/31235818
...
等
我知道 "whosebug.com/questions/" 并希望找出这些数字,后面的名字。
有办法吗?
我正在调查的网站使用 CSS 和
例如,它不允许访问 Whosebug。com/questions/(我收到错误 403--禁止访问)
但只允许其下的特定页面。
这些文件名由数字和字母字符组成,即72304,或 A1103457 等
该层次结构下有 100 多个文件,我想找出其中的所有文件 names/url。
非常感谢。
简而言之,您t.There 无法只抓取给定 url/domain 路径下的每个页面。
在更长的时间内...你可以使用像这样的蜘蛛 https://github.com/mvdbos/php-spider
跟踪链接并进行广度深度搜索,查找在给定 url 下可以找到的所有链接。然而,它会加载它找到的每个页面,搜索链接然后继续。所以它在大型网站上会非常慢,并可能导致帐户锁定和违反服务条款。