使用授权所需的查询创建 XML 个站点地图

Create XML Sitemap with Query needed for auth

我的任务是为网络爬虫创建 xml 站点地图。问题是除非您同意这些条款,否则唯一可以查看的页面是主页启动页面。现在已经有 Google 分析从这些页面发送数据,因此 Google 知道它们。我可以通过简单地将 tos=true 添加到查询字符串来绕过需要同意条款的用户。

我的问题是,我是否应该使用查询字符串将所有页面添加到站点地图,以便机器人可以找到它们?或者即使机器人无法找到这些页面,我也应该将这些页面添加到站点地图吗?

我已经 Google 了,但还没有真正找到包含或排除爬虫机器人无法立即访问的页面的最佳做法。

起初感觉我们不需要站点地图,但我们确实想要并且已经对需要 auth 的页面进行了一些分析,所以我对这种情况下的最佳做法有点迷茫.

您应该将它添加到查询中,以便爬虫可以找到它们,如果您不这样做,那么它们将无法访问您的 XML 文件,我猜您想要完成的是让爬虫访问 XML 文件。

在我看来,您应该添加查询,否则如果爬虫无法访问它们,我认为您根本没有必要拥有 XML 文件。

他们在这个 link 中进行查询,这是来自站点地图自己的网站,而且这个 link 显示了使用站点地图时的另一个重要事情,那就是实体转义。如果格式正确,爬虫只能理解 link。

http://www.sitemaps.org/protocol.html#submit_robots