如何 re-crawl 处于错误状态的文档

How to re-crawl documents that have an error status

google-search-appliance

我们昨天遇到了一个问题，导致 gsa 爬虫无法登录我们的网站进行爬虫。因此，许多 URL 被索引为登录页面。我在标题为 "Please log in"（登录页面的标题）的搜索页面上看到很多结果。此外，当我检查 Index Diagnostics 时，这些 URL 的爬网状态为“Retrying URL: Connection reset by peer during fetch.”。

现在登录问题已解决，一旦页面 re-crawled 抓取状态变为成功，它正在获取页面内容，搜索结果显示正确的标题。但是自从我无法控制正在抓取的内容有些页面仍未被抓取 re-crawled 并且仍然存在问题。

没有制服URL我可以强行re-crawl。因此我的问题是：有没有办法根据抓取状态（“Retrying URL: Connection reset by peer during fetch.”）强制执行 re-crawl？如果那是基于抓取状态类型 (Errors/Successful/Excluded) 的 re-crawl 具体如何？

使用“Index> Diagnostics > 将所有错误 url 导出为 csv 文件索引诊断"
打开 CSV 并对抓取状态列应用过滤器，得到 urls 您正在寻找的错误。
复制那些 url 并转到“内容来源 > 网络抓取 > 新鲜度调整>重新抓取这些 URL 模式”并粘贴并单击重新抓取

就是这样。你完成了！

PS：如果错误url更多（>10000，如果我没记错的话），你可能无法在一个csv文件中得到所有的错误。在那种情况下，你可以分批进行。

此致，

墨涵

您可以使用它来提交一批 URL 以供重新抓取： https://github.com/google/gsa-admin-toolkit/blob/master/interactive-feed-client.html

我一次测试了80K批

如何 re-crawl 处于错误状态的文档

How to re-crawl documents that have an error status

google-search-appliance