使用 wget 或 curl 测试网站的 .htaccess + robots.txt

using wget or curl to test website's .htaccess + robots.txt

我正在尝试调试我网站的 .htaccess + robots.txt,我想使用 cURL 或 wget 尝试访问我使用 robots.txt 阻止的文件或应该重定向到另一个位置的页面通过 .htaccess

我的 robots.txt

中有以下内容
User-agent: *
Disallow: /wp/wp-admin/

但是,我仍然可以抓取它

wget

$ wget http://xxxx.com/wp/wp-admin/
SYSTEM_WGETRC = c:/progra~1/wget/etc/wgetrc
syswgetrc = C:\Program Files (x86)\GnuWin32/etc/wgetrc
--2017-08-28 07:37:05--  http://xxxx.com/wp/wp-admin/
Resolving xxxx.com... 118.127.47.249
Connecting to xxxx.com|118.127.47.249|:80... connected.
HTTP request sent, awaiting response... 302 Found
Location: http://xxxx.com/wp/wp-login.php?redirect_to=http%3A%2F%2Fxxxx.com%2Fwp%2Fwp-
admin%2F&reauth=1 [following]
--2017-08-28 07:37:12--  http://xxxx.com/wp/wp-login.php?redirect_to=http%3A%2F%2Fxxxx.com%2Fwp%2Fwp-admin%2F&reauth=1
Connecting to xxxx.com|118.127.47.249|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 2891 (2.8K) [text/html]
Saving to: `wp-login.php@redirect_to=http%3A%2F%2Fxxxx.com%2Fwp%2Fwp-admin%2F&reauth=1'

100%[==============================================================================>] 2,891       --.-K/s   in 0.1s

2017-08-28 07:37:17 (22.2 KB/s) - `wp-login.php@redirect_to=http%3A%2F%2Fxxxx.com%2Fwp%2Fwp-admin%2F&re
auth=1' saved [2891/2891]

卷曲

$ curl -L xxx.com/wp/wp-admin -o wp-admin.html
% Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                Dload  Upload   Total   Spent    Left  Speed
100  1147  100  1147    0     0    107      0  0:00:10  0:00:10 --:--:--   280
0     0    0     0    0     0      0      0 --:--:--  0:01:37 --:--:--     0
100  2891  100  2891    0     0     17      0  0:02:50  0:02:42  0:00:08   234

wget 和 curl 都不被尊重robots.txt 有没有办法检查我的 .htaccess+robots.txt?谢谢!

robots.txt 纯粹用于搜索引擎机器人,它被大多数用户浏览器忽略 [包括 wget 和 curl],如果您想检查您的 robots.txt 是可解析的,您可以在网站管理员控制台中使用 google 的检查器,它会显示您的 robots.txt 文件可能存在的任何错误和问题。

使用 .htaccess 的重定向应该适用于任何浏览器,wget 应该显示这些重定向。