网络爬虫是否遵循 robots.txt 网址或标签
Does web crawlers follow robots.txt urls or a tags
我有一个主要基于 javascript 的网站。具体来说,没有 <a>
标签。单击某些按钮时,内容会动态插入 DOM 树中,然后 URL 将使用 javascript 来表示更新。
所以,我的问题是,如果我的 robots.txt
中有一个链接列表,允许的网络爬虫(Google、Bing 等)是否会直接访问这些链接在 robots.txt
中,还是他们会点击下载网站中提供的 robots.txt
链接?
因为在第二种情况下,网络爬虫不会在下载的 /
站点和 robots.txt
文件中找到任何 URL。
您可以使用 Sitemaps 为抓取工具提供一个 URL 列表。正如@Barmar 所提到的,robots.txt 的目的略有不同。
我有一个主要基于 javascript 的网站。具体来说,没有 <a>
标签。单击某些按钮时,内容会动态插入 DOM 树中,然后 URL 将使用 javascript 来表示更新。
所以,我的问题是,如果我的 robots.txt
中有一个链接列表,允许的网络爬虫(Google、Bing 等)是否会直接访问这些链接在 robots.txt
中,还是他们会点击下载网站中提供的 robots.txt
链接?
因为在第二种情况下,网络爬虫不会在下载的 /
站点和 robots.txt
文件中找到任何 URL。
您可以使用 Sitemaps 为抓取工具提供一个 URL 列表。正如@Barmar 所提到的,robots.txt 的目的略有不同。