通过元数据和 url 提要添加的 URL 的抓取深度

Crawl depth for URLs added through metadata-and-url feed

我们需要通过元数据和 url 提要添加特定的 URL,并防止 GSA 跟踪在这些页面上找到的链接。必须忽略在此页面上找到的 URL,即使它们在 Follow Patterns 规则中指定。

是否可以为通过 元数据和 url 供稿添加的网址指定抓取深度,或者可能有一些其他方法来防止 GSA 跟踪在具体页面?

防止这种情况最简单的方法是将以下内容添加到 HTML 的 "HEAD" 部分。

这将阻止 GSA(和任何其他搜索引擎)跟踪页面上的任何链接。

既然你说你不能将相关的 nofollow 元标记添加到你的内容中,那么你可以使用你的关注和抓取模式来处理这个问题。

来自official documentation

Google 建议抓取到最大深度,让 Google 算法为用户呈现最好的搜索结果。您可以使用 URL 模式来控制索引中包含多少级子目录。

例如,以下 URL 模式会导致 Search Appliance 抓取网站上的前三个子目录 www.mysite.com:

regexp:www\.mysite\.com/[^/]*$
regexp:www\.mysite\.com/[^/]*/[^/]*$
regexp:www\.mysite\.com/[^/]*/[^/]*/[^/]*$ 

仅靠 metadata-and-URL 提要无法解决此问题。 GSA 将抓取它找到的链接,除非您可以指定模式来阻止它们。

我能想到几个可能的解决方案。

  1. 您可以用内容供稿替换 metadata-and-URL 供稿。然后你必须获取任何你想要索引的内容并将其包含在提要中。您的获取程序可以删除所有链接,或者它可以通过为每个文档指定不正确的 URL 来 "break" 相关链接。然后,您必须在搜索结果显示页面中将不正确的 URL 重写回正确的 URL。我以前做过第二种方法,这很容易做到。

  2. 您可以使用爬网代理来阻止访问您不希望 GSA 跟踪的任何链接。