如何 re-crawl 处于错误状态的文档
How to re-crawl documents that have an error status
我们昨天遇到了一个问题,导致 gsa 爬虫无法登录我们的网站进行爬虫。因此,许多 URL 被索引为登录页面。我在标题为 "Please log in"(登录页面的标题)的搜索页面上看到很多结果。此外,当我检查 Index Diagnostics 时,这些 URL 的爬网状态为“Retrying URL: Connection reset by peer during fetch.
”。
现在登录问题已解决,一旦页面 re-crawled 抓取状态变为成功,它正在获取页面内容,搜索结果显示正确的标题。但是自从我无法控制正在抓取的内容有些页面仍未被抓取 re-crawled 并且仍然存在问题。
没有制服URL我可以强行re-crawl。因此我的问题是:
有没有办法根据抓取状态(“Retrying URL: Connection reset by peer during fetch.
”)强制执行 re-crawl?如果那是基于抓取状态类型 (Errors/Successful/Excluded
) 的 re-crawl 具体如何?
使用“Index> Diagnostics > 将所有错误 url 导出为 csv 文件
索引诊断"
打开 CSV 并对抓取状态列应用过滤器,得到 urls
您正在寻找的错误。
复制那些 url 并转到“内容来源 > 网络抓取 > 新鲜度
调整>重新抓取这些 URL 模式”并粘贴并单击重新抓取
就是这样。你完成了!
PS:如果错误url更多(>10000,如果我没记错的话),你可能无法在一个csv文件中得到所有的错误。在那种情况下,你可以分批进行。
此致,
墨涵
您可以使用它来提交一批 URL 以供重新抓取:
https://github.com/google/gsa-admin-toolkit/blob/master/interactive-feed-client.html
我一次测试了80K批
我们昨天遇到了一个问题,导致 gsa 爬虫无法登录我们的网站进行爬虫。因此,许多 URL 被索引为登录页面。我在标题为 "Please log in"(登录页面的标题)的搜索页面上看到很多结果。此外,当我检查 Index Diagnostics 时,这些 URL 的爬网状态为“Retrying URL: Connection reset by peer during fetch.
”。
现在登录问题已解决,一旦页面 re-crawled 抓取状态变为成功,它正在获取页面内容,搜索结果显示正确的标题。但是自从我无法控制正在抓取的内容有些页面仍未被抓取 re-crawled 并且仍然存在问题。
没有制服URL我可以强行re-crawl。因此我的问题是:
有没有办法根据抓取状态(“Retrying URL: Connection reset by peer during fetch.
”)强制执行 re-crawl?如果那是基于抓取状态类型 (Errors/Successful/Excluded
) 的 re-crawl 具体如何?
使用“Index> Diagnostics > 将所有错误 url 导出为 csv 文件 索引诊断"
打开 CSV 并对抓取状态列应用过滤器,得到 urls 您正在寻找的错误。
复制那些 url 并转到“内容来源 > 网络抓取 > 新鲜度 调整>重新抓取这些 URL 模式”并粘贴并单击重新抓取
就是这样。你完成了!
PS:如果错误url更多(>10000,如果我没记错的话),你可能无法在一个csv文件中得到所有的错误。在那种情况下,你可以分批进行。
此致,
墨涵
您可以使用它来提交一批 URL 以供重新抓取: https://github.com/google/gsa-admin-toolkit/blob/master/interactive-feed-client.html
我一次测试了80K批