如何 re-crawl 处于错误状态的文档

How to re-crawl documents that have an error status

我们昨天遇到了一个问题,导致 gsa 爬虫无法登录我们的网站进行爬虫。因此,许多 URL 被索引为登录页面。我在标题为 "Please log in"(登录页面的标题)的搜索页面上看到很多结果。此外,当我检查 Index Diagnostics 时,这些 URL 的爬网状态为“Retrying URL: Connection reset by peer during fetch.”。

现在登录问题已解决,一旦页面 re-crawled 抓取状态变为成功,它正在获取页面内容,搜索结果显示正确的标题。但是自从我无法控制正在抓取的内容有些页面仍未被抓取 re-crawled 并且仍然存在问题。

没有制服URL我可以强行re-crawl。因此我的问题是: 有没有办法根据抓取状态(“Retrying URL: Connection reset by peer during fetch.”)强制执行 re-crawl?如果那是基于抓取状态类型 (Errors/Successful/Excluded) 的 re-crawl 具体如何?

  1. 使用“Index> Diagnostics > 将所有错误 url 导出为 csv 文件 索引诊断"

  2. 打开 CSV 并对抓取状态列应用过滤器,得到 urls 您正在寻找的错误。

  3. 复制那些 url 并转到“内容来源 > 网络抓取 > 新鲜度 调整>重新抓取这些 URL 模式”并粘贴并单击重新抓取

就是这样。你完成了!

PS:如果错误url更多(>10000,如果我没记错的话),你可能无法在一个csv文件中得到所有的错误。在那种情况下,你可以分批进行。

此致,

墨涵

您可以使用它来提交一批 URL 以供重新抓取: https://github.com/google/gsa-admin-toolkit/blob/master/interactive-feed-client.html

我一次测试了80K批