如何禁止 google 爬虫使用 robots.txt 爬取的少数 URL 列表
EHow to Disallow few list of URL crawled by google crawler using robots.txt
我有几个页面和 URL 我不想被 Google 爬虫抓取。
我知道可以通过 robots.txt 完成。我搜索 Google 并发现我们需要在 robots.txt 中安排所有内容以禁止爬虫,但我不确定这样做是否正确。
User-Agent: *
Disallow: /music?
Disallow: /widgets/radio?
Disallow: /affiliate/
Disallow: /affiliate_redirect.php
Disallow: /affiliate_sendto.php
Disallow: /affiliatelink.php
Disallow: /campaignlink.php
Disallow: /delivery.php
Disallow: /music/+noredirect/
Disallow: /user/*/library/music/
Disallow: /*/+news/*/visit
Disallow: /*/+wiki/diff
# AJAX content
Disallow: /search/autocomplete
Disallow: /template
Disallow: /ajax
Disallow: /user/*/tasteomatic
我可以这样给URL吗?我的意思是,我可以将完整的 URL 指定为不允许吗?
Disallow: http://www.bba-reman.com/admin/feedback.htm
编辑
我当前的 robots.txt 个条目如下所示
User-Agent: *
Disallow: /CheckLogin
Disallow: /DTC.pdf
Disallow: /catalogue/bmw.htm
Disallow: /auto-mine/bmw/index.htm
Disallow: /forums/parent.Jmp('i100')
Disallow: /forums/parent.Jmp('i040')
Disallow: /forums/CodeDescriptions.html
Disallow: /forums/parent.Jmp('i050')
Disallow: /forums/parent.Scl('000','24601')
Disallow: /forums/parent.Jmp('i030')
Disallow: /catalogue/peugeot.htm
可以吗.....告诉我。谢谢
Disallow
字段的值始终是 URL path.
的开头
因此,如果您的 robots.txt 可从 http://example.com/robots.txt
访问,并且它包含此行
Disallow: http://example.com/admin/feedback.htm
然后 URL这样的将被禁止:
http://example.com/http://example.com/admin/feedback.htm
http://example.com/http://example.com/admin/feedback.html
http://example.com/http://example.com/admin/feedback.htm_foo
http://example.com/http://example.com/admin/feedback.htm/bar
- …
所以如果你想禁止 URL http://example.com/admin/feedback.htm
,你必须使用
Disallow: /admin/feedback.htm
这会阻止像这样的 URL:
http://example.com/admin/feedback.htm
http://example.com/admin/feedback.html
http://example.com/admin/feedback.htm_foo
http://example.com/admin/feedback.htm/bar
- …
我有几个页面和 URL 我不想被 Google 爬虫抓取。
我知道可以通过 robots.txt 完成。我搜索 Google 并发现我们需要在 robots.txt 中安排所有内容以禁止爬虫,但我不确定这样做是否正确。
User-Agent: *
Disallow: /music?
Disallow: /widgets/radio?
Disallow: /affiliate/
Disallow: /affiliate_redirect.php
Disallow: /affiliate_sendto.php
Disallow: /affiliatelink.php
Disallow: /campaignlink.php
Disallow: /delivery.php
Disallow: /music/+noredirect/
Disallow: /user/*/library/music/
Disallow: /*/+news/*/visit
Disallow: /*/+wiki/diff
# AJAX content
Disallow: /search/autocomplete
Disallow: /template
Disallow: /ajax
Disallow: /user/*/tasteomatic
我可以这样给URL吗?我的意思是,我可以将完整的 URL 指定为不允许吗?
Disallow: http://www.bba-reman.com/admin/feedback.htm
编辑
我当前的 robots.txt 个条目如下所示
User-Agent: *
Disallow: /CheckLogin
Disallow: /DTC.pdf
Disallow: /catalogue/bmw.htm
Disallow: /auto-mine/bmw/index.htm
Disallow: /forums/parent.Jmp('i100')
Disallow: /forums/parent.Jmp('i040')
Disallow: /forums/CodeDescriptions.html
Disallow: /forums/parent.Jmp('i050')
Disallow: /forums/parent.Scl('000','24601')
Disallow: /forums/parent.Jmp('i030')
Disallow: /catalogue/peugeot.htm
可以吗.....告诉我。谢谢
Disallow
字段的值始终是 URL path.
因此,如果您的 robots.txt 可从 http://example.com/robots.txt
访问,并且它包含此行
Disallow: http://example.com/admin/feedback.htm
然后 URL这样的将被禁止:
http://example.com/http://example.com/admin/feedback.htm
http://example.com/http://example.com/admin/feedback.html
http://example.com/http://example.com/admin/feedback.htm_foo
http://example.com/http://example.com/admin/feedback.htm/bar
- …
所以如果你想禁止 URL http://example.com/admin/feedback.htm
,你必须使用
Disallow: /admin/feedback.htm
这会阻止像这样的 URL:
http://example.com/admin/feedback.htm
http://example.com/admin/feedback.html
http://example.com/admin/feedback.htm_foo
http://example.com/admin/feedback.htm/bar
- …